Pipeline-Demo

Schritt 1: Die Quelle

Inventar des Schlosses Thaur, 1471 - AT-TLA/BBÄ MIB - Inventare A 049.1

Inventar Schloss Thaur, fol. 1r (1471), Kurrentschrift auf Papier

Was sehen wir? Eine handschriftliche Inventarliste aus dem 15. Jahrhundert in frühneuhochdeutscher Kurrentschrift. Das Dokument listet den Hausrat auf, der dem Burggrafen Burkhart von Knöringen auf Schloss Thaur übergeben wurde. Die sprachlichen Herausforderungen - Abkürzungen, regionale Varianten, Kurrentschrift - machen eine automatische Verarbeitung anspruchsvoll.

Quelle: Tiroler Landesarchiv, Abt. BBÄ MIB, Inventare A 049.1 (4 Seiten, Papier). Digitalisiert via Transkribus (Collection 2197991, Doc-ID 11328300).

Im Quellen-Explorer öffnen

Schritt 2: Handwritten Text Recognition (HTR)

Automatische Transkription der Kurrentschrift - 189 Zeilen, 753 Wörter

Was passiert hier? Ein trainiertes HTR-Modell (Transkribus) erkennt die Handschrift und erzeugt maschinenlesbaren Text. Die Transkription behält die Zeilenstruktur des Originals bei. Typische Herausforderungen: Abkürzungszeichen (ũ, ẽ), regionale Schreibweisen (hawsrat, sloss, dekhen), lateinische Datumsformeln.

Status: Diese Transkription wurde in Transkribus als DONE markiert (Inventaria-Projekt). Für die 26 Raitbücher (8.561 Seiten) steht die HTR noch aus.

Qualitätssicherung: Im Vollprojekt wird coOCR/HTR als Ergänzung zu Transkribus eingesetzt. Das Schwesterprojekt ermöglicht die systematische Validierung und Korrektur von HTR-Ergebnissen: Fachexpertinnen prüfen, korrigieren und bewerten die automatischen Transkriptionen in einem Editor-in-the-Loop-Workflow mit KI-gestützter Qualitätsbewertung (confident/uncertain/problematic).

Im Quellen-Explorer öffnen coOCR/HTR ansehen

Schritt 3: Named Entity Recognition (NER)

Erkennung von Personen, Orten, Objekten und Zeitangaben im Transkriptionstext

Person Ort Objekt Zeit

sicher prüfenswert problematisch

–

Personen

–

Orte

–

Objekte

–

Zeitangaben

Was passiert hier? Ein LLM (Claude) extrahiert benannte Entitäten aus dem frühneuhochdeutschen Text. Die Herausforderung: historische Namensvarianten (Burkharten von Knoringen → Burkhart von Knöringen), veraltete Objektbezeichnungen (strosakh → Strohsack, dekhen → Decken), und implizite Ortsreferenzen (hoff → Innsbrucker Hof).

Methode: Diese Extraktion wurde mit Claude als LLM-Prototyping-Werkzeug erstellt. Im Vollprojekt wird jede Extraktion durch die Fachwissenschaftlerin validiert (Expert-in-the-Loop). Die Konfidenz wird kategoriell angezeigt: sicher / prüfenswert / problematisch.

Schritt 4: Relationsextraktion

Erkennung von Beziehungen zwischen den extrahierten Entitäten

Subjekt	Relation	Objekt	Typ	Konfidenz	Beleg

Was passiert hier? Aus den erkannten Entitäten werden Beziehungen extrahiert: Wer macht was, wo, mit wem? Dieses Inventar zeigt typische höfische Praktiken: Übergabe von Amtsgut (Inventarisierung), Zeugnis durch Hofbeamte, Pferdeausrüstung für den Burggrafen, Besitzverhältnisse am Schloss.

Beobachtung: Aus nur 4 Seiten Inventartext können 13 Relationen zwischen 16 Personen und 4 Orten extrahiert werden. Die 8.561 Seiten Raitbücher werden diese Datenbasis um Größenordnungen erweitern.

Schritt 5: Netzwerk

Visualisierung der extrahierten Beziehungen als interaktiver Graph

Person Landesfürst Ort

Was sehen wir? Das Beziehungsnetzwerk eines einzigen Inventardokuments (4 Seiten). Schloss Thaur steht im Zentrum - hier kreuzen sich Besitz (Knöringen), Verwaltung (Randorffer als Hauskämmerer), Zeugnis (Bürger aus Hall) und höfische Hierarchie (Sigmund als Landesfürst).

Skalierung: Der Netzwerk-Explorer zeigt das vollständige SiCProD-Netzwerk mit 6.288 Personen und 42.893 Relationen. Jedes verarbeitete Quelldokument reichert dieses Netzwerk mit neuen Verbindungen an.

Fazit: Aus 4 Seiten Handschrift entsteht ein analysierbares Beziehungsnetzwerk mit 16 Personen und 13 Relationen. Die gleiche Pipeline ist auf die 8.561 Seiten Raitbücher skalierbar -- das ist der Kern des Projektantrags.