Ein Traum wird wahr. Automatische Texterkennung beim Kirchenbuchportal Archion
Das Kirchenbuchportal Archion, bei dem seit über einem Jahrzehnt auch die Kirchenbücher der württembergischen und der badischen Landeskirche präsentiert werden, bietet jetzt ein Tool zur automatischen Transkription der Kirchenbuchseiten an. Das ist ein großer Schritt. Seit wenigen Jahren fangen wir ja schon an, uns daran zu gewöhnen, dass Künstliche Intelligenz revolutionär ist und vieles kann, das uns beeindruckt. Wenn man die intensive Nutzung der Kirchenbücher durch die Familienforschung aus beruflichen Gründen schon seit über zwanzig Jahren gut kennt und die Diskussionen verfolgt hat, so weiß man, dass das Entziffern der handschriftlichen Einträge für viele Nutzerinnen und Nutzer eine große Hürde war. Ortsfamilienbücher haben den Zugang zwar erleichtert, und auch verschiedene Transkriptionen, wurden von engagierten Menschen in sehr mühseliger und sehr zeitaufwändiger Arbeit durchgeführt, aber die stark nachgefragte Quelle liegt nun einmal in handschriftlicher Form vor. Vor diesem Erfahrungshintergrund empfindet man die Einführung der digitalen Texterkennung als echten Durchbruch. Wie geht Archion vor?
Zur Texterkennung verwendet Archion das von Transkribus entwickelte Tool. Gegenwärtig werden fortlaufend Kirchenbuchseiten – zunächst Taufregister des 19. Jahrhunderts – durch dieses KI-Tool transkribiert. Dies ist kein kleines Vorhaben. Bei Archion werden derzeit etwa 200.000 Kirchenbücher der Partner-Archive mit rund 32 Millionen eingescannten Doppelseiten präsentiert. Zudem besteht die Möglichkeit, Kirchenbuchseiten auf Anfrage transkribieren zu lassen. Die Transkriptionen bleiben bei Archion vorhanden und sind dann auch für spätere Nutzer einsehbar. Wer schon einmal mit solchen Quellen geforscht hat, weiß, dass die Handschriften des 19. Jahrhunderts ordentlicher und gleichmäßiger sind als die Handschriften früherer Jahrhunderte. In der Regel trugen die Pfarrer ihre Eintragungen in Formulare mit vorgedruckten Spalten ein. Im 16. Jahrhundert gab es solche Vordrucke noch nicht und die Art der Kirchenbuchführung war nur geringfügig standardisiert. Das heißt, dass man sich normalerweise umso schwerer mit dem Entziffern der Eintragungen tut, je länger sie zurückliegen. Das betrifft prinzipiell nicht nur uns, sondern auch die Texterkennungs-KI. Deshalb dachten wir, wir nehmen ein paar Beispiele aus verschiedenen Jahrhunderten und schauen, wie gut die Texterkennung funktioniert. Unsere Wahl fiel auf die Kirchenbuchseiten mit den Taufeinträgen des Automobilpioniers Gottlieb Daimler (19. Jahrhundert), des Philosophen Georg Wilhelm Friedrich Hegel (18. Jahrhundert) und des Theologen Johann Valentin Andreae (16. Jahrhundert). Beim Taufregister von Schorndorf aus dem Jahr 1834 mit Daimlers Taufeintrag erschien die Meldung „Texterkennung steht an”, was bedeutet, dass dieses Register bald vollständig transkribiert sein wird. Eine On-Demand-Transkription ist hier allerdings nicht möglich. Deshalb wurde stattdessen eine Seite des Familienregisters der Stuttgarter Hofkirche für die Familie Herzog Friedrich Eugens von Württemberg transkribiert (siehe Abb. 1). Die Taufregister von Georg Friedrich Hegel (1780, Stuttgart) und Johann Valentin Andreä (1586, Herrenberg) ließen sich mit dem Button „Erkannter Text“ problemlos beauftragen. Es wird darauf hingewiesen, dass der Auftrag nun in der Warteschlange sei. Die Wartedauer war in allen drei Fällen sehr kurz. In wenigen Minuten war die Transkription verfügbar. Es werden nicht einzelne Einträge transkribiert, sondern jeweils die ganze Doppelseite, deren Inhalt dann im Textfeld erscheint (Abb. 2 und 3). Sich darin zu orientieren ist nicht ganz einfach, so dass es hilfreich ist, dass dank der Option „txt“ einzelne Zeilen im Eintrag durch Anklicken direkt im Bild transkribiert werden (s. Abb. 4). Vielleicht wäre es für die Zukunft noch schön, wenn man im transkribierten Text einen Bereich markieren könnte, der dann im Bild der Originalseite herausgehoben erscheint. Anders als erwartet funktioniert die Texterkennung bei den älteren Kirchenbüchern nicht wesentlich schlechter als bei dem Familienregister des 19. Jahrhunderts. Dass die Texterkennung nicht ganz zuverlässig funktioniert soll hier nicht zu sehr kritisiert werden. Gerade bei Eigennamen ist die Transkription nicht immer verlässlich. Die KI erzeugt keine Edition, auf die man sich verlassen könnte. Bei der richtigen Einordnung und besseren Deutung solcher Fehltranskriptionen ist weiterhin die NI (Natürliche Intelligenz) der Nutzenden gefragt. Da gibt es sicher noch Entwicklungspotential. Das Wichtigste ist aber, dass diese Transkriptionen schon jetzt gut genug sind, um das Lesen der Kirchenbucheinträge zu erleichtern. Man könnte auch sagen, dass wir am Anfang eines neuen Zeitalters bei der Nutzung dieser Quelle stehen. Vielleicht hört sich das zu euphorisch an? Aber der Schritt zu einer Suche nach den eigenen Vorfahren per Volltextrecherche scheint nicht mehr allzu weit.
Beim 1-Jahres-Pass von Archion sind 120 On-Demand-Texterkennungen inklusive.. Weitere Kontingente an Texterkennungen können gegen eine Gebühr erworben werden (siehe hier). Weitere Informationen zur Texterkennung gibt es hier.
Beitragsbild:
- Herrenberg / Mischbuch 1558-1645 Band 1, mit Taufeintrag von Johann Valentin Andreae https://www.archion.de/p/24da715ca6/
- Taufeintrag Johann Valentin Andreae mit Overlay
- Stuttgart, Stiftskirche / Taufregister 1765-1772 Band 382 mit Taufeintrag von Georg Friedrich Hegel https://www.archion.de/p/be7a34df21/
- Stuttgart, Hofkirche / Familienregister 1808 Band 216 https://www.archion.de/p/6106809da4/








