Daten

Woraus besteht die MHDBDB? Diese Seite beschreibt das Korpus, die sieben Authority Files, ihre Provenienz und die bekannten Grenzen der aktuellen Version.

1. Das Korpus in Zahlen

Die MHDBDB umfasst 666 mittelhochdeutsche TEI-Texte mit wortgenauer semantischer Annotation. Das Wörterbuch hält 43.750 Lemmata vor, dazu ein Variantenwörterbuch mit 175.910 orthographischen Varianten, das die Suche gegen die tatsächlich attestierten Schreibformen im Korpus abgleicht.

666

TEI-Texte

43.750

Lemmata im Wörterbuch

175.910

orthographische Varianten

Die Texte decken einen breiten Ausschnitt der mittelhochdeutschen Literatur ab: Epik, Lyrik, geistliche Prosa, Lehrdichtung, Sangspruch, Chroniken. Viele Werke liegen in mehreren Editionen vor; Sie können im Reading View zwischen den Editionen wechseln.

2. Sieben Authority Files

Die TEI-Texte referenzieren sieben kontrollierte Vokabulare, die gemeinsam die Grundlage für Suche, Lemmatisierung und semantische Analyse bilden. Sechs davon können Sie im Playground direkt durchsuchen; das siebte (variants.xml) arbeitet unsichtbar im Hintergrund.

  • persons.xml (0,12 MB) – Autor:innen und historische Personen. Verknüpft mit GND und Wikidata, wo vorhanden.
  • works.xml (1,41 MB) – Werk- und Handschriftenmetadaten: Sigle, Autor:in, Gattung, Edition. Jeder Werk-Eintrag verlinkt mit den zugehörigen Korpustexten.
  • lexicon.xml (32,59 MB) – das Wörterbuch mit 43.750 Lemmata, grammatischen Annotationen, Bedeutungen und Anbindung an BMZ, Lexer und MWB.
  • concepts.xml (0,21 MB) – semantische Begriffstaxonomie mit hierarchischer Struktur.
  • genres.xml (0,4 MB) – literarische Gattungsklassifikation.
  • names.xml (0,03 MB) – Eigennamen mit semantischen Relationen.
  • variants.xml (12,46 MB) – orthographische Varianten, aus dem Korpus abgeleitet. Grundlage der Variantenauflösung in der Suche.

Alle Authority Files sind auf GitHub unter CC BY-NC-SA 4.0 verfügbar.

3. Provenienz und Editionen

Die MHDBDB ist ein langjähriges Projekt der Universität Salzburg. Die ursprüngliche Datenbank der Mittelhochdeutschen Begriffsdatenbank wurde ab den 1970er Jahren aufgebaut; die aktuelle TEI-Version ist das Ergebnis der Konsolidierung und Neu-Auszeichnung dieser historisch gewachsenen Grundlage.

Die digitalen Texte basieren auf etablierten Editionen. Im Reading View der Korpussuche finden Sie für jeden Text im Metadaten-Panel die verwendete Edition. Wo mehrere Editionen eines Werks vorliegen, können Sie zwischen ihnen wechseln.

Die TEI-Auszeichnung folgt den TEI P5 Guidelines im Namespace http://www.tei-c.org/ns/1.0. Jedes lemmatisierte Wort ist mit <w> und einem Referenzeintrag zum Wörterbuch ausgezeichnet.

Zitationshinweis: Wenn Sie die MHDBDB in einer Publikation verwenden, steht auf der Startseite eine empfohlene Zitation unter Zitation & Lizenz.

4. Bekannte Grenzen

Die aktuelle Version der Website hat bewusste und unbewusste Grenzen. Die wichtigsten:

  • Desktop-only. Die Oberflächen von Korpussuche und Playground sind für Bildschirme ab 1200 Pixeln optimiert. Auf Mobilgeräten funktioniert vieles, einige Bedienelemente sind jedoch beengt.
  • Statisches Korpus. Das Korpus wird nicht in Echtzeit aktualisiert. Änderungen an Texten oder Authority Files erfordern einen Build-Lauf und ein neues Deployment.
  • Keine Serverkomponente. Alle Berechnungen laufen im Browser, gegen vorberechnete Indizes. Das ist schnell und privat, bedeutet aber auch: keine persistenten Nutzerdaten, kein Session-Zustand auf dem Server. Eine programmatische API ist in Arbeit.
  • Lemmatisierung nicht vollständig. Nicht jedes Wort im Korpus ist lemmatisiert; die Abdeckung variiert zwischen Texten. Die Trefferzahlen sind entsprechend als untere Schranken zu lesen.
  • Editionsabhängigkeit. Die Texte folgen den jeweiligen Druckausgaben. Varianten zwischen Editionen desselben Werks spiegeln die Editionsentscheidungen, nicht die Handschriften.

Cache leeren: Wenn Sie den Eindruck haben, dass Sie eine veraltete Version der Daten sehen, nutzen Sie den Button „Website-Daten löschen" im Footer jeder Seite. Er leert den Browser-Cache der Indizes und lädt die aktuelle Version neu.

5. Daten beitragen oder das Schema verstehen

Sie wollen eigene Texte zur MHDBDB beitragen oder die genaue TEI-Auszeichnung nachvollziehen? Diese beiden Themen sind Teil eines laufenden Dokumentations-Sprints und werden separat gepflegt:

  • TEI-Schema und Encoding-Modell – die normative Beschreibung, welche TEI-Elemente und Attribute in der MHDBDB verwendet werden, mit Beispielen und Validierungshinweisen. Die RelaxNG-Schemata (mhdbdb.rng, mhdbdb-authority.rng) liegen im Schema-Verzeichnis auf GitHub, die menschlich lesbare Aufbereitung ist in Arbeit (Issue #78).
  • Eigene Texte beitragen – ein Leitfaden für Forschende, die ihre TEI-Daten in die MHDBDB einspeisen wollen: Anforderungen, Workflow, Qualitätsprüfung. Aktuell in Arbeit (Issue #68).

Bis beide Seiten live sind: Bei konkreten Fragen erreichen Sie das Team unter mhdbdb@plus.ac.at. Das TEI-Korpus und die Authority Files stehen bereits offen auf GitHub zur Verfügung.

Stand: April 2026 · Änderungen auf GitHub