Mittelalterliche Manuskripte werden mit KI transkribiert

Eine Person mit Schutzbrille sieht durch ein Mikroskop.
Foto: Matt Cashore/University of Notre Dame

Die Stiftsbibliothek von St. Gallen in der Schweiz beherbergt rund 160 000 Bände literarischer und historischer Manuskripte, die bis ins achte Jahrhundert zurückreichen – alle von Hand auf Pergament geschrieben und in Sprachen, die in der heutigen Zeit kaum noch gesprochen werden.

Um diese historischen Berichte über die Menschheit zu bewahren, wurden diese Texte, deren Zahl in die Millionen geht, in Bibliotheken und Klöstern auf der ganzen Welt sicher aufbewahrt. Ein beträchtlicher Teil dieser Sammlungen ist der Öffentlichkeit durch digitale Bilder zugänglich, aber Experten sagen, dass es eine außerordentliche Menge an Material gibt, das noch nie gelesen wurde – eine Schatztruhe mit Einblicken in die Weltgeschichte, die darin verborgen ist.

Deep-Learning-Transkription

Forscher der University of Notre Dame entwickeln nun ein künstliches neuronales Netz, das komplexe alte Manuskripte auf der Grundlage der menschlichen Wahrnehmung lesen kann, um die Fähigkeiten der Deep-Learning-Transkription zu verbessern.

„Wir haben es mit historischen Dokumenten zu tun, die in Stilen geschrieben sind, die längst aus der Mode gekommen sind, viele Jahrhunderte zurückreichen und in Sprachen wie Latein, die nur noch selten verwendet werden“, sagt Walter Scheirer, der Dennis O. Doughty Collegiate Associate Professor in der Abteilung für Informatik und Ingenieurwesen in Notre Dame. „Man kann schöne Fotos von diesen Materialien bekommen, aber wir haben uns vorgenommen, die Transkription so zu automatisieren, dass sie die Wahrnehmung der Seite mit den Augen eines erfahrenen Lesers nachahmt und eine schnelle, durchsuchbare Lektüre des Textes ermöglicht“.

In seiner in der Fachzeitschrift Transactions on Pattern Analysis and Machine Intelligence des Institute of Electrical and Electronics Engineers veröffentlichten Forschungsarbeit beschreibt Scheirer, wie sein Team herkömmliche Methoden des maschinellen Lernens mit der visuellen Psychophysik kombinierte – einer Methode zur Messung der Zusammenhänge zwischen physischen Reizen und mentalen Phänomenen, wie z. B. der Zeit, die ein erfahrener Leser benötigt, um ein bestimmtes Zeichen zu erkennen, die Qualität der Handschrift zu beurteilen oder die Verwendung bestimmter Abkürzungen zu identifizieren.

Handschriften aus dem 9. Jahrhundert

Scheirers Team untersuchte digitalisierte lateinische Manuskripte, die von Schreibern im Kloster St. Gallen im neunten Jahrhundert verfasst wurden. Die Leserinnen und Leser gaben ihre manuellen Transkriptionen in eine speziell entwickelte Software-Schnittstelle ein. Das Team hat dann die Reaktionszeiten während der Transkription gemessen, um herauszufinden, welche Wörter, Zeichen und Passagen leicht oder schwierig waren. Scheirer erklärte, dass durch die Einbeziehung dieser Art von Daten ein Netzwerk geschaffen wurde, das dem menschlichen Verhalten besser entspricht, Fehler reduziert und eine genauere, realistischere Lesart des Textes ermöglicht.

„Das ist eine Strategie, die normalerweise beim maschinellen Lernen nicht verwendet wird“, sagte Scheirer. „Wir kennzeichnen die Daten durch diese psychophysikalischen Messungen, die direkt aus psychologischen Studien zur Wahrnehmung stammen, indem wir Verhaltensmessungen vornehmen. Wir informieren dann das Netzwerk über allgemeine Schwierigkeiten bei der Wahrnehmung dieser Zeichen und können auf der Grundlage dieser Messungen Korrekturen vornehmen.“

Der Einsatz von Deep Learning zur Transkription alter Manuskripte ist für Geisteswissenschaftler von großem Interesse.

„Es ist ein Unterschied, ob man nur Fotos macht und sie liest oder ob man ein Programm hat, das die Texte durchsuchbar macht“, sagt Hildegund Müller, außerordentliche Professorin an der Fakultät für Klassische Philologie in Notre Dame. „Wenn man die Manuskripte betrachtet, die in dieser Studie verwendet werden – Manuskripte aus dem neunten Jahrhundert -, dann ist das eine frühe Phase des Mittelalters. Es ist eine lange Zeit vor dem Buchdruck. In dieser Zeit wurde eine enorme Menge an Handschriften produziert. In diesen Texten sind alle möglichen Informationen versteckt – unbekannte Manuskripte, die niemand zuvor gesehen hat.“

Scheirer sagte, dass es noch Herausforderungen gibt. Sein Team arbeitet daran, die Genauigkeit der Transkriptionen zu verbessern, insbesondere im Fall von beschädigten oder unvollständigen Dokumenten, sowie daran, wie Illustrationen oder andere Aspekte einer Seite, die für das Netzwerk verwirrend sein könnten, berücksichtigt werden können.

Untersuchung weiterer Werke

Das Team war jedoch in der Lage, das Programm für die Transkription äthiopischer Manuskripte anzupassen, indem es auf eine Sprache mit einem völlig anderen Zeichensatz umgestellt wurde – ein erster Schritt zur Entwicklung eines Programms, das Informationen für die Benutzer transkribieren und übersetzen kann.

„Auf dem Gebiet der Literatur könnte das wirklich hilfreich sein. Jedes gute literarische Werk ist von einer riesigen Menge historischer Dokumente umgeben, aber wo es wirklich nützlich sein wird, ist in der historischen Archivforschung“, sagte Müller. „Es besteht ein großer Bedarf, die digitalen Geisteswissenschaften voranzubringen. Wenn man über das Mittelalter und die frühe Neuzeit spricht, muss man, wenn man die Details und Folgen historischer Ereignisse verstehen will, das schriftliche Material durchsehen, und diese Manuskripte sind das einzige, was wir haben. Das Problem könnte außerhalb der westlichen Welt noch größer sein. Denken Sie an die Sprachen, die in bedrohten Kulturen verschwinden. Wir müssen diese Werke zuallererst bewahren, sie zugänglich machen und irgendwann Übersetzungen anfertigen, um sie in die kulturellen Prozesse einzubinden, die noch im Gange sind – und wir rennen gegen die Zeit an.

Nach einer Pressemitteilung der University of Notre Dame.

Das könnte Sie auch interessieren!

Virtuelle Vergangenheit

Digitale Technologien drängen mit Macht in die Archäologie. Eine besondere Chance bietet die Virtualisierung: Virtuelle Rekonstruktionen von Objekten oder gar ganzer Lebenswelten schlagen eine Brücke von der Wissenschaft zur Öffentlichkeit, wecken Interesse und Verständnis für das kulturelle Erbe. Apps holen Funde aus dem Archiv und tragen sie in die Landschaft, bringen Ausgrabungsbefunde ins Museum oder gleich alles auf einmal ins heimatliche Wohnzimmer. Im Thema zeigen Fachleute exemplarisch die schier grenzenlosen Möglichkeiten.