Lade Statistiken...

Initialisiere Datenbank...

Beta - Dieses Projekt befindet sich in aktiver Entwicklung. Inhalte und Funktionen können sich jederzeit ändern.
MHDBDB Logo

TEI-kodiertes Korpus mittelhochdeutscher Literatur mit semantischen Annotationen

Neu hier? Quick-Start in 3 Schritten →

Über das Projekt

Projektziel

Die Mittelhochdeutsche Begriffsdatenbank (MHDBDB) ist eine Forschungsinfrastruktur der Universität Salzburg für die digitale Erschließung mittelhochdeutscher Literatur. Das Projekt kombiniert TEI-Kodierung mit semantischen Annotationen zur systematischen Analyse mittelalterlicher Texte.

TEI-Korpus

667 TEI-kodierte mittelhochdeutsche Texte mit Word-Level-Annotationen, verknüpft mit kontrollierten Vokabularen für Autor*innen, Werke, Lemmata, Begriffe, Gattungen und Namen. Validiert gegen ein eigenes RELAX-NG-Schema (667/667 Korpus- und 8/8 Authority-Dateien, CI-geprüft).

Semantische Annotationen

Jedes Wort ist mit lemmatischen und semantischen Informationen annotiert, die auf Authority Files basieren und komplexe linguistische und konzeptuelle Analysen ermöglichen.

Korpus-Übersicht

Volltextsuche mit Multi-Lemma-Highlight, Lese-Ansicht mit Wikidata-Verknüpfung sowie persistente, zitierfähige Lemma-Seiten mit Worterbuchnetz-aligned IDs.

667
TEI-Texte
8
Authority Files
43.754
Lemmata
192.472
Orthographische Varianten

Datenbestand

  • tei/ (667 Dateien) – TEI-kodierte mittelhochdeutsche Volltexte mit Word-Level-Annotationen
  • persons.xml (0.05 MB) – Autor*innen und historische Personen
  • works.xml (1.14 MB) – Werk- und Handschriftenmetadaten
  • lexicon.xml (31.85 MB) – Wörterbuch mit grammatischen Annotationen
  • concepts.xml (0.21 MB) – Semantische Begriffstaxonomie
  • genres.xml (0.40 MB) – Literarische Gattungsklassifikation
  • names.xml (0.03 MB) – Eigennamen mit semantischen Relationen
  • variants.xml (12.18 MB) – Orthographische Varianten aus TEI-Korpus

MHDBDB Playground

Der Playground bietet eine interaktive Web-Oberfläche zur Exploration des TEI-Korpus mit 10 spezialisierten Suchfunktionen.

Authority Files erkunden

  • • Autor*innen durchsuchen
  • • Werke anzeigen
  • • Lemmata-Suche
  • • Begriffe erkunden
  • • Gattungen filtern
  • • Namen-Datenbank

TEI-Textanalyse

  • • Multi-Lemma-Suche (Dokument & Nähe)
  • • Wortfrequenz-Analyse (mit Stopwort-Filter)
  • • Text-Statistiken (Token, Lemma-Diversität, Hapax)
  • • Lemma-Verteilung (Bar-Chart Lemma × Text)

Normalisierung mhd. Zeichen

Alle Suchfunktionen unterstützen automatische Normalisierung mittelhochdeutscher Zeichen:

  • • Langvokale: â→a, ê→e, î→i, ô→o, û→u
  • • Umlaute: ä→ae, ö→oe, ü→ue
  • • Ligaturen: æ→ae, œ→oe

Dokumentation

Promptotyping

Dieses Projekt wird mit Promptotyping entwickelt, einer iterativen Context-Engineering-Methode für die datengetriebene Entwicklung von Forschungsartefakten mit Frontier-LLMs.

  • • Dokumente als Source of Truth
  • • Code als Disposable Artifact
  • • Critical Expert in the Loop

Knowledge Vault

Technische Dokumentation auf GitHub:

Hilfe

Anleitungen zur Nutzung von Korpussuche, Playground und Datenstandards:

  • Quick-Start – in drei Schritten zur ersten Suche
  • Korpussuche – Lemma-Suche, Reading View, Lemma-Seiten
  • Playground – Multi-Lemma, Kookkurrenz, Authority Files
  • Daten – Korpus, Authority Files, Grenzen
  • Schema – TEI-Encoding-Standards mit Beispielen
  • Daten beitragen – Leitfaden für externe Beitragende

Kontakt & Lizenz

Universität Salzburg

Mittelhochdeutsche Begriffsdatenbank (MHDBDB)
Fachbereich Germanistik

E-Mail: mhdbdb@plus.ac.at
Web: mhdbdb.plus.ac.at

Lizenz

Dieses Projekt steht unter der CC BY-NC-SA 4.0 Lizenz.

Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International

Förderung

CLARIAH-AT

Gefördert durch CLARIAH-AT im Rahmen der österreichischen Forschungsinfrastruktur für Digital Humanities.

Zitation

Mittelhochdeutsche Begriffsdatenbank (MHDBDB). Universität Salzburg. Koordination: Katharina Zeppezauer-Wachauer. Seit 1992. URL: https://dhcraft.org/mhdbdb-tei-only/ (abgerufen am )

Lizenz: CC BY-NC-SA 4.0. Versionsstände über die GitHub Releases.