Daten – MHDBDB Hilfe

1. Das Korpus in Zahlen

Die MHDBDB umfasst 667 mittelhochdeutsche TEI-Texte mit wortgenauer semantischer Annotation. Das Wörterbuch hält 43.754 Lemmata vor, dazu ein Variantenwörterbuch mit 256.759 orthographischen Varianten, das die Suche gegen die tatsächlich attestierten Schreibformen im Korpus abgleicht. Für den Abgleich werden diese Formen normalisiert und auf 234.244 eindeutige Zuordnungen verdichtet; in der Korpussuche und im Playground erscheint daher diese kleinere Zahl.

667

TEI-Texte

43.754

Lemmata im Wörterbuch

256.759

orthographische Varianten

Die Texte decken einen breiten Ausschnitt der mittelhochdeutschen Literatur ab: Epik, Lyrik, geistliche Prosa, Lehrdichtung, Sangspruch, Chroniken. Viele Werke liegen in mehreren Editionen vor; Sie können im Reading View zwischen den Editionen wechseln.

2. Acht Authority Files

Die TEI-Texte referenzieren acht kontrollierte Vokabulare, die gemeinsam die Grundlage für Suche, Lemmatisierung und semantische Analyse bilden. Sechs davon können Sie im Playground direkt durchsuchen, variants.xml arbeitet unsichtbar im Hintergrund, und contributors.xml ist ein internes Mitwirkenden-Register für die Editor-Attribution in den TEI-Headern.

persons.xml (0,05 MB) – Autor*innen und historische Personen. Verknüpft mit GND und Wikidata, wo vorhanden.
works.xml (1,14 MB) – Werk- und Handschriftenmetadaten: Sigle, Autor*in, Gattung, Edition. Jeder Werk-Eintrag verlinkt mit den zugehörigen Korpustexten.
lexicon.xml (31,84 MB) – das Wörterbuch mit 43.754 Lemmata, grammatischen Annotationen, Bedeutungen und Anbindung an BMZ, Lexer und MWB.
concepts.xml (0,21 MB) – semantische Begriffstaxonomie mit hierarchischer Struktur.
genres.xml (0,4 MB) – literarische Gattungsklassifikation.
names.xml (0,03 MB) – Eigennamen mit semantischen Relationen.
variants.xml (15,62 MB) – orthographische Varianten, aus dem Korpus abgeleitet. Grundlage der Variantenauflösung in der Suche.
contributors.xml (intern) – Register der MHDBDB-Mitwirkenden (51 Personen + 2 Organisationen). Dient der Editor-Attribution in den TEI-Headern und wird nicht über die Suche zugänglich gemacht.

Alle Authority Files sind auf GitHub unter CC BY-NC-SA 4.0 verfügbar.

Programmatischer Zugriff (JSON-API): Für Skripte und eigene Anwendungen stehen die Referenzdaten zusätzlich als statische JSON-Dateien unter stabilen URLs bereit: Personen, Werke, Lemmata, Begriffe, Gattungen, Eigennamen und Textmetadaten. Kein Server, CORS offen, Lizenz in jeder Datei.

Zur Dokumentation der JSON-API

3. Provenienz und Editionen

Die MHDBDB ist ein langjähriges Projekt der Universität Salzburg. Die ursprüngliche Datenbank der Mittelhochdeutschen Begriffsdatenbank wurde ab den 1970er Jahren aufgebaut; die aktuelle TEI-Version ist das Ergebnis der Konsolidierung und Neu-Auszeichnung dieser historisch gewachsenen Grundlage.

Die digitalen Texte basieren auf etablierten Editionen. Im Reading View der Korpussuche finden Sie für jeden Text im Metadaten-Panel die verwendete Edition. Wo mehrere Editionen eines Werks vorliegen, listet die Siglen-Sektion die weiteren Editionen als anklickbare Links – ein Klick lädt den jeweiligen Text.

Die TEI-Auszeichnung folgt den TEI P5 Guidelines im Namespace http://www.tei-c.org/ns/1.0. Jedes lemmatisierte Wort ist mit <w> und einem Referenzeintrag zum Wörterbuch ausgezeichnet.

Zitationshinweis: Wenn Sie die MHDBDB in einer Publikation verwenden, steht auf der Startseite eine empfohlene Zitation unter Zitation & Lizenz.

4. Bekannte Grenzen

Die aktuelle Version der Website hat bewusste und unbewusste Grenzen. Die wichtigsten:

Desktop-only. Die Oberflächen von Korpussuche und Playground sind für Bildschirme ab 1200 Pixeln optimiert. Auf Mobilgeräten funktioniert vieles, einige Bedienelemente sind jedoch beengt.
Statisches Korpus. Das Korpus wird nicht in Echtzeit aktualisiert. Änderungen an Texten oder Authority Files erfordern einen Build-Lauf und ein neues Deployment.
Keine Serverkomponente. Alle Berechnungen laufen im Browser, gegen vorberechnete Indizes. Das ist schnell und privat, bedeutet aber auch: keine persistenten Nutzerdaten, kein Session-Zustand auf dem Server. Für programmatische Zugriffe gibt es eine statische JSON-API.
Lemmatisierung nicht vollständig. Nicht jedes Wort im Korpus ist lemmatisiert; die Abdeckung variiert zwischen Texten. Die Trefferzahlen sind entsprechend als untere Schranken zu lesen.
Editionsabhängigkeit. Die Texte folgen den jeweiligen Druckausgaben. Varianten zwischen Editionen desselben Werks spiegeln die Editionsentscheidungen, nicht die Handschriften.

Cache leeren: Wenn Sie den Eindruck haben, dass Sie eine veraltete Version der Daten sehen, nutzen Sie den Button „Website-Daten löschen" im Footer jeder Seite. Er leert den Browser-Cache der Indizes und lädt die aktuelle Version neu.

5. Daten beitragen oder das Schema verstehen

Sie wollen eigene Texte zur MHDBDB beitragen oder die genaue TEI-Auszeichnung nachvollziehen? Beide Themen werden separat gepflegt:

Schema-Seite – die normative Beschreibung, welche TEI-Elemente und Attribute in der MHDBDB verwendet werden, mit neun Beispieldateien zum Anschauen, Step-by-Step-Tutorial und Validierungshinweisen.
Eigene Texte beitragen – technischer Leitfaden zur Konversion bestehender TEI-Daten (MHD/FNHD) in das MHDBDB-Schema: Header-Struktur, Wort-Annotation, Authority-Files, halbautomatische Pipeline, Validierung.

Inhaltliche Rückfragen oder Erstkontakt zum Beitragen eigener Texte: mhdbdb@plus.ac.at. Das TEI-Korpus und die Authority Files stehen offen auf GitHub zur Verfügung.