Pipeline-Demo
Von der handschriftlichen Quelle zum Beziehungsnetzwerk - am Beispiel des Inventars von Schloss Thaur (1471)
Schritt 1: Die Quelle
Inventar des Schlosses Thaur, 1471 - AT-TLA/BBÄ MIB - Inventare A 049.1
Was sehen wir? Eine handschriftliche Inventarliste aus dem 15. Jahrhundert in frühneuhochdeutscher Kurrentschrift.
Das Dokument listet den Hausrat auf, der dem Burggrafen Burkhart von Knöringen auf Schloss Thaur übergeben wurde.
Die sprachlichen Herausforderungen - Abkürzungen, regionale Varianten, Kurrentschrift - machen eine automatische Verarbeitung anspruchsvoll.
Quelle: Tiroler Landesarchiv, Abt. BBÄ MIB, Inventare A 049.1 (4 Seiten, Papier). Digitalisiert via Transkribus (Collection 2197991, Doc-ID 11328300).
Im Quellen-Explorer öffnen
Quelle: Tiroler Landesarchiv, Abt. BBÄ MIB, Inventare A 049.1 (4 Seiten, Papier). Digitalisiert via Transkribus (Collection 2197991, Doc-ID 11328300).
Im Quellen-Explorer öffnen
Schritt 2: Handwritten Text Recognition (HTR)
Automatische Transkription der Kurrentschrift - 189 Zeilen, 753 Wörter
Was passiert hier? Ein trainiertes HTR-Modell (Transkribus) erkennt die Handschrift und erzeugt maschinenlesbaren Text.
Die Transkription behält die Zeilenstruktur des Originals bei.
Typische Herausforderungen: Abkürzungszeichen (ũ, ẽ), regionale Schreibweisen (hawsrat, sloss, dekhen), lateinische Datumsformeln.
Status: Diese Transkription wurde in Transkribus als DONE markiert (Inventaria-Projekt). Für die 26 Raitbücher (8.561 Seiten) steht die HTR noch aus.
Qualitätssicherung: Im Vollprojekt wird coOCR/HTR als Ergänzung zu Transkribus eingesetzt. Das Schwesterprojekt ermöglicht die systematische Validierung und Korrektur von HTR-Ergebnissen: Fachexpertinnen prüfen, korrigieren und bewerten die automatischen Transkriptionen in einem Editor-in-the-Loop-Workflow mit KI-gestützter Qualitätsbewertung (confident/uncertain/problematic).
Im Quellen-Explorer öffnen coOCR/HTR ansehen
Status: Diese Transkription wurde in Transkribus als DONE markiert (Inventaria-Projekt). Für die 26 Raitbücher (8.561 Seiten) steht die HTR noch aus.
Qualitätssicherung: Im Vollprojekt wird coOCR/HTR als Ergänzung zu Transkribus eingesetzt. Das Schwesterprojekt ermöglicht die systematische Validierung und Korrektur von HTR-Ergebnissen: Fachexpertinnen prüfen, korrigieren und bewerten die automatischen Transkriptionen in einem Editor-in-the-Loop-Workflow mit KI-gestützter Qualitätsbewertung (confident/uncertain/problematic).
Im Quellen-Explorer öffnen coOCR/HTR ansehen
Schritt 3: Named Entity Recognition (NER)
Erkennung von Personen, Orten, Objekten und Zeitangaben im Transkriptionstext
Person
Ort
Objekt
Zeit
sicher
prüfenswert
problematisch
–
Personen
–
Orte
–
Objekte
–
Zeitangaben
Was passiert hier? Ein LLM (Claude) extrahiert benannte Entitäten aus dem frühneuhochdeutschen Text.
Die Herausforderung: historische Namensvarianten (Burkharten von Knoringen → Burkhart von Knöringen),
veraltete Objektbezeichnungen (strosakh → Strohsack, dekhen → Decken), und implizite Ortsreferenzen (hoff → Innsbrucker Hof).
Methode: Diese Extraktion wurde mit Claude als LLM-Prototyping-Werkzeug erstellt. Im Vollprojekt wird jede Extraktion durch die Fachwissenschaftlerin validiert (Expert-in-the-Loop). Die Konfidenz wird kategoriell angezeigt: sicher / prüfenswert / problematisch.
Methode: Diese Extraktion wurde mit Claude als LLM-Prototyping-Werkzeug erstellt. Im Vollprojekt wird jede Extraktion durch die Fachwissenschaftlerin validiert (Expert-in-the-Loop). Die Konfidenz wird kategoriell angezeigt: sicher / prüfenswert / problematisch.
Schritt 4: Relationsextraktion
Erkennung von Beziehungen zwischen den extrahierten Entitäten
| Subjekt | Relation | Objekt | Typ | Konfidenz | Beleg |
|---|
Was passiert hier? Aus den erkannten Entitäten werden Beziehungen extrahiert: Wer macht was, wo, mit wem?
Dieses Inventar zeigt typische höfische Praktiken: Übergabe von Amtsgut (Inventarisierung), Zeugnis durch Hofbeamte,
Pferdeausrüstung für den Burggrafen, Besitzverhältnisse am Schloss.
Beobachtung: Aus nur 4 Seiten Inventartext können 13 Relationen zwischen 16 Personen und 4 Orten extrahiert werden. Die 8.561 Seiten Raitbücher werden diese Datenbasis um Größenordnungen erweitern.
Beobachtung: Aus nur 4 Seiten Inventartext können 13 Relationen zwischen 16 Personen und 4 Orten extrahiert werden. Die 8.561 Seiten Raitbücher werden diese Datenbasis um Größenordnungen erweitern.
Schritt 5: Netzwerk
Visualisierung der extrahierten Beziehungen als interaktiver Graph
Person
Landesfürst
Ort
Was sehen wir? Das Beziehungsnetzwerk eines einzigen Inventardokuments (4 Seiten).
Schloss Thaur steht im Zentrum - hier kreuzen sich Besitz (Knöringen), Verwaltung (Randorffer als Hauskämmerer),
Zeugnis (Bürger aus Hall) und höfische Hierarchie (Sigmund als Landesfürst).
Skalierung: Der Netzwerk-Explorer zeigt das vollständige SiCProD-Netzwerk mit 6.288 Personen und 42.893 Relationen. Jedes verarbeitete Quelldokument reichert dieses Netzwerk mit neuen Verbindungen an.
Fazit: Aus 4 Seiten Handschrift entsteht ein analysierbares Beziehungsnetzwerk mit 16 Personen und 13 Relationen. Die gleiche Pipeline ist auf die 8.561 Seiten Raitbücher skalierbar -- das ist der Kern des Projektantrags.
Skalierung: Der Netzwerk-Explorer zeigt das vollständige SiCProD-Netzwerk mit 6.288 Personen und 42.893 Relationen. Jedes verarbeitete Quelldokument reichert dieses Netzwerk mit neuen Verbindungen an.
Fazit: Aus 4 Seiten Handschrift entsteht ein analysierbares Beziehungsnetzwerk mit 16 Personen und 13 Relationen. Die gleiche Pipeline ist auf die 8.561 Seiten Raitbücher skalierbar -- das ist der Kern des Projektantrags.