Projektstatus: Im Einsatz

DDD: Deutsche Dokumente Digitalisieren

Wir extrahieren Fließtext aus PDFs.

Johannes Filter
#Runde7 #Journalismus/Medien #Anwendungen

Welche gesellschaftliche Herausforderung adressiert dein Prototyp?

Damit Personen mit Seheinschränkungen mit schriftlichen Dokumenten umgehen können, müssen Informationen und Text extrahiert und für Maschinen lesbar gemacht werden. Gemeinnützige Civic-Tech-Projekte und Privatpersonen haben allerdings oft nicht die finanziellen Ressourcen, um funktionale Texterkennungssoftware zu verwenden. DDD bietet deswegen die frei zugängliche Software pd3f an, die es ermöglicht, Informationen aus schriftlichen Dokumenten bereitzustellen.

Wie gehst du das Problem an?

DDD extrahiert mit pd3f automatisiert Text aus PDFs. Aufgrund langer Wörter im Deutschen sind aus PDF extrahierte Texte mit Zeilenumbrüchen zerstückelt. pd3f rekonstruiert mithilfe von Maschinellem Lernen den ursprünglichen Fließtext.

In pd3f ist eine schlanke web-basierte GUI inkludiert, also auch eine vollständige API-basierte Bearbeitungspipeline. Daneben gibt es das Softwarepaket pd3f-core, auf das Civic-Tech-Projekte aufbauen können, um Dokumente u. A. für seheingeschränkte Personen barrierefrei bereitzustellen.

An wen richtet sich dein Tool?

Die Hauptzielgruppe für das Softwarepaket sind Civic-Tech-Programmierer*innen, die pd3f in ihrem Projekt benutzen. Die dazugehörige Endanwendung wendet sich u. A. an (Daten-)Journalist*innen, denen sie es ermöglicht, Informationen aus gescannten Bildern oder PDFs zu extrahieren.