Daten
Woraus besteht die MHDBDB? Diese Seite beschreibt das Korpus, die acht Authority Files, ihre Provenienz und die bekannten Grenzen der aktuellen Version.
1. Das Korpus in Zahlen
Die MHDBDB umfasst 667 mittelhochdeutsche TEI-Texte mit wortgenauer semantischer Annotation. Das Wörterbuch hält 43.754 Lemmata vor, dazu ein Variantenwörterbuch mit 256.759 orthographischen Varianten, das die Suche gegen die tatsächlich attestierten Schreibformen im Korpus abgleicht. Für den Abgleich werden diese Formen normalisiert und auf 234.244 eindeutige Zuordnungen verdichtet; in der Korpussuche und im Playground erscheint daher diese kleinere Zahl.
667
TEI-Texte
43.754
Lemmata im Wörterbuch
256.759
orthographische Varianten
Die Texte decken einen breiten Ausschnitt der mittelhochdeutschen Literatur ab: Epik, Lyrik, geistliche Prosa, Lehrdichtung, Sangspruch, Chroniken. Viele Werke liegen in mehreren Editionen vor; Sie können im Reading View zwischen den Editionen wechseln.
3. Provenienz und Editionen
Die MHDBDB ist ein langjähriges Projekt der Universität Salzburg. Die ursprüngliche Datenbank der Mittelhochdeutschen Begriffsdatenbank wurde ab den 1970er Jahren aufgebaut; die aktuelle TEI-Version ist das Ergebnis der Konsolidierung und Neu-Auszeichnung dieser historisch gewachsenen Grundlage.
Die digitalen Texte basieren auf etablierten Editionen. Im Reading View der Korpussuche finden Sie für jeden Text im Metadaten-Panel die verwendete Edition. Wo mehrere Editionen eines Werks vorliegen, listet die Siglen-Sektion die weiteren Editionen als anklickbare Links – ein Klick lädt den jeweiligen Text.
Die TEI-Auszeichnung folgt den
TEI P5 Guidelines
im Namespace http://www.tei-c.org/ns/1.0.
Jedes lemmatisierte Wort ist mit <w>
und einem Referenzeintrag zum Wörterbuch ausgezeichnet.
Zitationshinweis: Wenn Sie die MHDBDB in einer Publikation verwenden, steht auf der Startseite eine empfohlene Zitation unter Zitation & Lizenz.
4. Bekannte Grenzen
Die aktuelle Version der Website hat bewusste und unbewusste Grenzen. Die wichtigsten:
- Desktop-only. Die Oberflächen von Korpussuche und Playground sind für Bildschirme ab 1200 Pixeln optimiert. Auf Mobilgeräten funktioniert vieles, einige Bedienelemente sind jedoch beengt.
- Statisches Korpus. Das Korpus wird nicht in Echtzeit aktualisiert. Änderungen an Texten oder Authority Files erfordern einen Build-Lauf und ein neues Deployment.
- Keine Serverkomponente. Alle Berechnungen laufen im Browser, gegen vorberechnete Indizes. Das ist schnell und privat, bedeutet aber auch: keine persistenten Nutzerdaten, kein Session-Zustand auf dem Server. Für programmatische Zugriffe gibt es eine statische JSON-API.
- Lemmatisierung nicht vollständig. Nicht jedes Wort im Korpus ist lemmatisiert; die Abdeckung variiert zwischen Texten. Die Trefferzahlen sind entsprechend als untere Schranken zu lesen.
- Editionsabhängigkeit. Die Texte folgen den jeweiligen Druckausgaben. Varianten zwischen Editionen desselben Werks spiegeln die Editionsentscheidungen, nicht die Handschriften.
Cache leeren: Wenn Sie den Eindruck haben, dass Sie eine veraltete Version der Daten sehen, nutzen Sie den Button „Website-Daten löschen" im Footer jeder Seite. Er leert den Browser-Cache der Indizes und lädt die aktuelle Version neu.
5. Daten beitragen oder das Schema verstehen
Sie wollen eigene Texte zur MHDBDB beitragen oder die genaue TEI-Auszeichnung nachvollziehen? Beide Themen werden separat gepflegt:
- Schema-Seite – die normative Beschreibung, welche TEI-Elemente und Attribute in der MHDBDB verwendet werden, mit neun Beispieldateien zum Anschauen, Step-by-Step-Tutorial und Validierungshinweisen.
- Eigene Texte beitragen – technischer Leitfaden zur Konversion bestehender TEI-Daten (MHD/FNHD) in das MHDBDB-Schema: Header-Struktur, Wort-Annotation, Authority-Files, halbautomatische Pipeline, Validierung.
Inhaltliche Rückfragen oder Erstkontakt zum Beitragen eigener Texte: mhdbdb@plus.ac.at. Das TEI-Korpus und die Authority Files stehen offen auf GitHub zur Verfügung.
Stand: Juni 2026 · Änderungen auf GitHub