Listen OCR für die Arolsen Archives: Wir vereinfachen die Bearbeitung von Listendokumenten für die Arolsen Archives.

Runde 10
Bildung/Forschung
Anwendungssoftware

Zuletzt aktualisiert: 20/05/2025

Siehe Demo Week

Über das Projekt

Team-Mitglieder

Thomas Werkmeister

Förderzeitraum

01/09/2021 – 28/02/2022

Welche gesellschaftliche Herausforderung adressiert euer Prototyp?

Dieses Projekt soll einen kleinen Beitrag dazu leisten, die Arbeit der Arolsen Archives technisch zu unterstützen und dabei helfen, noch umfassender über die Verbrechen des Nationalsozialismus aufzuklären. Das Ziel, das die Arolsen Archives mit der weiterführenden Digitalisierung und Informationsextraktion archivierter Dokumente verfolgen, ist Einzelschicksale nachvollziehbar zu machen. Über die Daten und Metadaten der Dokumente sollen sich die Laufbahnen von Individuen sowie der Gesamtheit der Menschen durch das System der Konzentrations- und Arbeitslager bis zur Befreiung und Zusammenführung mit Familien und/oder Emigration nachvollziehen lassen.

Wie geht ihr das Problem an?

Die Arolsen Archives sind ein digitales Denkmal für die Verfolgten des Nationalsozialismus. In ihrem Bestand befinden sich Millionen von Dokumenten aus den Arbeits- und Konzentrationslagern der NS-Zeit sowie Dokumente über Familienzusammenführungen und Übergangslager für die befreiten Menschen nach dem Ende des Zweiten Weltkriegs.

Während die Arolsen Archives über OCR und Crowdsourcing für viele Dokumenttypen inzwischen sehr gute Verfahren entwickelt haben, stellen Listendokumente noch eine große Herausforderung dar. Dieses Projekt soll dazu beitragen, Methoden für diesen Dokumenttypen, für den etwa 725.000 Dokumente vorliegen, zu entwickeln.

Kern des Projektes ist die Entwicklung von geeigneten Methoden für das Extrahieren der Inhalte aus den Listendokumenten. Hierfür gibt es mehrere mögliche technische Ansätze wie z. B. eine Anpassung und Erweiterung von bestehenden OCR-Lösungen, um besser mit den speziellen Anforderungen der Dokumente umgehen zu können. Auch möglich wäre, über Computervision und Deep Learning eine eigene OCR Lösung zu entwickeln oder aber ein Verfahren zu schaffen, das die Listendokumente besser für den bestehenden Crowdsourcing-Ansatz des Archivs vorbereitet.

An wen richtet sich euer Tool?

Die direkte Zielgruppe sind die Arolsen Archives. Weiterhin lassen sich die Erkenntnisse aus diesem Projekt potenziell für ähnliche Archive nutzen.

Listen OCR für die Arolsen Archives: Wir vereinfachen die Bearbeitung von Listendokumenten für die Arolsen Archives.

Über das Projekt

Team-Mitglieder

Förderzeitraum

Welche gesellschaftliche Herausforderung adressiert euer Prototyp?

Wie geht ihr das Problem an?

An wen richtet sich euer Tool?

Mehr Projekte wie dieses

Zeit Zuhause: Wir erleichtern digitale Wissensvermittlung.

Your Voice: Wir helfen User*innen, ihre Stimme zu synthetisieren.

Visual Bayesic: Wir machen Bayes’sche Verfahren für alle nutzbar.

The Everything Exhibition: Wir wandeln Inhalte aus Wikipedia in virtuelle Ausstellungen um.