Projektstatus: Im Einsatz

Listen OCR für die Arolsen Archives

Wir vereinfachen die Bearbeitung von Listendokumenten für die Arolsen Archives.

Thomas Werkmeister
#Runde10 #Bildung/Aufklärung #KI/ML

Welche gesellschaftliche Herausforderung adressiert euer Prototyp?

Dieses Projekt soll einen kleinen Beitrag dazu leisten, die Arbeit der Arolsen Archives technisch zu unterstützen und dabei helfen, noch umfassender über die Verbrechen des Nationalsozialismus aufzuklären. Das Ziel, das die Arolsen Archives mit der weiterführenden Digitalisierung und Informationsextraktion archivierter Dokumente verfolgen, ist Einzelschicksale nachvollziehbar zu machen. Über die Daten und Metadaten der Dokumente sollen sich die Laufbahnen von Individuen sowie der Gesamtheit der Menschen durch das System der Konzentrations- und Arbeitslager bis zur Befreiung und Zusammenführung mit Familien und/oder Emigration nachvollziehen lassen.

Wie geht ihr das Problem an?

Die Arolsen Archives sind ein digitales Denkmal für die Verfolgten des Nationalsozialismus. In ihrem Bestand befinden sich Millionen von Dokumenten aus den Arbeits- und Konzentrationslagern der NS-Zeit sowie Dokumente über Familienzusammenführungen und Übergangslager für die befreiten Menschen nach dem Ende des Zweiten Weltkriegs.

Während die Arolsen Archives über OCR und Crowdsourcing für viele Dokumenttypen inzwischen sehr gute Verfahren entwickelt haben, stellen Listendokumente noch eine große Herausforderung dar. Dieses Projekt soll dazu beitragen, Methoden für diesen Dokumenttypen, für den etwa 725.000 Dokumente vorliegen, zu entwickeln.

Kern des Projektes ist die Entwicklung von geeigneten Methoden für das Extrahieren der Inhalte aus den Listendokumenten. Hierfür gibt es mehrere mögliche technische Ansätze wie z. B. eine Anpassung und Erweiterung von bestehenden OCR-Lösungen, um besser mit den speziellen Anforderungen der Dokumente umgehen zu können. Auch möglich wäre, über Computervision und Deep Learning eine eigene OCR Lösung zu entwickeln oder aber ein Verfahren zu schaffen, das die Listendokumente besser für den bestehenden Crowdsourcing-Ansatz des Archivs vorbereitet.

An wen richtet sich euer Tool?

Die direkte Zielgruppe sind die Arolsen Archives. Weiterhin lassen sich die Erkenntnisse aus diesem Projekt potenziell für ähnliche Archive nutzen.