Daten
Woraus besteht die MHDBDB? Diese Seite beschreibt das Korpus, die sieben Authority Files, ihre Provenienz und die bekannten Grenzen der aktuellen Version.
1. Das Korpus in Zahlen
Die MHDBDB umfasst 666 mittelhochdeutsche TEI-Texte mit wortgenauer semantischer Annotation. Das Wörterbuch hält 43.750 Lemmata vor, dazu ein Variantenwörterbuch mit 175.910 orthographischen Varianten, das die Suche gegen die tatsächlich attestierten Schreibformen im Korpus abgleicht.
666
TEI-Texte
43.750
Lemmata im Wörterbuch
175.910
orthographische Varianten
Die Texte decken einen breiten Ausschnitt der mittelhochdeutschen Literatur ab: Epik, Lyrik, geistliche Prosa, Lehrdichtung, Sangspruch, Chroniken. Viele Werke liegen in mehreren Editionen vor; Sie können im Reading View zwischen den Editionen wechseln.
3. Provenienz und Editionen
Die MHDBDB ist ein langjähriges Projekt der Universität Salzburg. Die ursprüngliche Datenbank der Mittelhochdeutschen Begriffsdatenbank wurde ab den 1970er Jahren aufgebaut; die aktuelle TEI-Version ist das Ergebnis der Konsolidierung und Neu-Auszeichnung dieser historisch gewachsenen Grundlage.
Die digitalen Texte basieren auf etablierten Editionen. Im Reading View der Korpussuche finden Sie für jeden Text im Metadaten-Panel die verwendete Edition. Wo mehrere Editionen eines Werks vorliegen, können Sie zwischen ihnen wechseln.
Die TEI-Auszeichnung folgt den
TEI P5 Guidelines
im Namespace http://www.tei-c.org/ns/1.0.
Jedes lemmatisierte Wort ist mit <w>
und einem Referenzeintrag zum Wörterbuch ausgezeichnet.
Zitationshinweis: Wenn Sie die MHDBDB in einer Publikation verwenden, steht auf der Startseite eine empfohlene Zitation unter Zitation & Lizenz.
4. Bekannte Grenzen
Die aktuelle Version der Website hat bewusste und unbewusste Grenzen. Die wichtigsten:
- Desktop-only. Die Oberflächen von Korpussuche und Playground sind für Bildschirme ab 1200 Pixeln optimiert. Auf Mobilgeräten funktioniert vieles, einige Bedienelemente sind jedoch beengt.
- Statisches Korpus. Das Korpus wird nicht in Echtzeit aktualisiert. Änderungen an Texten oder Authority Files erfordern einen Build-Lauf und ein neues Deployment.
- Keine Serverkomponente. Alle Berechnungen laufen im Browser, gegen vorberechnete Indizes. Das ist schnell und privat, bedeutet aber auch: keine persistenten Nutzerdaten, kein Session-Zustand auf dem Server. Eine programmatische API ist in Arbeit.
- Lemmatisierung nicht vollständig. Nicht jedes Wort im Korpus ist lemmatisiert; die Abdeckung variiert zwischen Texten. Die Trefferzahlen sind entsprechend als untere Schranken zu lesen.
- Editionsabhängigkeit. Die Texte folgen den jeweiligen Druckausgaben. Varianten zwischen Editionen desselben Werks spiegeln die Editionsentscheidungen, nicht die Handschriften.
Cache leeren: Wenn Sie den Eindruck haben, dass Sie eine veraltete Version der Daten sehen, nutzen Sie den Button „Website-Daten löschen" im Footer jeder Seite. Er leert den Browser-Cache der Indizes und lädt die aktuelle Version neu.
5. Daten beitragen oder das Schema verstehen
Sie wollen eigene Texte zur MHDBDB beitragen oder die genaue TEI-Auszeichnung nachvollziehen? Diese beiden Themen sind Teil eines laufenden Dokumentations-Sprints und werden separat gepflegt:
-
TEI-Schema und Encoding-Modell – die normative Beschreibung,
welche TEI-Elemente und Attribute in der MHDBDB verwendet werden, mit
Beispielen und Validierungshinweisen. Die RelaxNG-Schemata
(
mhdbdb.rng,mhdbdb-authority.rng) liegen im Schema-Verzeichnis auf GitHub, die menschlich lesbare Aufbereitung ist in Arbeit (Issue #78). - Eigene Texte beitragen – ein Leitfaden für Forschende, die ihre TEI-Daten in die MHDBDB einspeisen wollen: Anforderungen, Workflow, Qualitätsprüfung. Aktuell in Arbeit (Issue #68).
Bis beide Seiten live sind: Bei konkreten Fragen erreichen Sie das Team unter mhdbdb@plus.ac.at. Das TEI-Korpus und die Authority Files stehen bereits offen auf GitHub zur Verfügung.
Stand: April 2026 · Änderungen auf GitHub