DDD: Deutsche Dokumente Digitalisieren: Wir extrahieren Fließtext aus PDFs.

Runde 7
Medien/Soziale Netzwerke
Anwendungssoftware

Zuletzt aktualisiert: 25/06/2025

Siehe Demo Week

Über das Projekt

Team-Mitglieder

Johannes Filter

Förderzeitraum

01/03/2020 – 31/08/2020

Welche gesellschaftliche Herausforderung adressiert dein Prototyp?

Damit Personen mit Seheinschränkungen mit schriftlichen Dokumenten umgehen können, müssen Informationen und Text extrahiert und für Maschinen lesbar gemacht werden. Gemeinnützige Civic-Tech-Projekte und Privatpersonen haben allerdings oft nicht die finanziellen Ressourcen, um funktionale Texterkennungssoftware zu verwenden. DDD bietet deswegen die frei zugängliche Software pd3f an, die es ermöglicht, Informationen aus schriftlichen Dokumenten bereitzustellen.

Wie gehst du das Problem an?

DDD extrahiert mit pd3f automatisiert Text aus PDFs. Aufgrund langer Wörter im Deutschen sind aus PDF extrahierte Texte mit Zeilenumbrüchen zerstückelt. pd3f rekonstruiert mithilfe von Maschinellem Lernen den ursprünglichen Fließtext.

In pd3f ist eine schlanke web-basierte GUI inkludiert, also auch eine vollständige API-basierte Bearbeitungspipeline. Daneben gibt es das Softwarepaket pd3f-core, auf das Civic-Tech-Projekte aufbauen können, um Dokumente u. A. für seheingeschränkte Personen barrierefrei bereitzustellen.

An wen richtet sich dein Tool?

Die Hauptzielgruppe für das Softwarepaket sind Civic-Tech-Programmierer*innen, die pd3f in ihrem Projekt benutzen. Die dazugehörige Endanwendung wendet sich u. A. an (Daten-)Journalist*innen, denen sie es ermöglicht, Informationen aus gescannten Bildern oder PDFs zu extrahieren.

DDD: Deutsche Dokumente Digitalisieren: Wir extrahieren Fließtext aus PDFs.

Über das Projekt

Team-Mitglieder

Förderzeitraum

Welche gesellschaftliche Herausforderung adressiert dein Prototyp?

Wie gehst du das Problem an?

An wen richtet sich dein Tool?

Mehr Projekte wie dieses

BigBlueBetterAudio: Bessere Sprachqualität für das Videokonferenztool BigBlueButton

XRevent Broadcaster: Wir erstellen eine kostenfreie Software für Bildregie.

XR-Event Plattform: Wir ermöglichen Künstler*innen die Durchführung hybrider Cross-Reality Events.

Voctomix: Wir verbessern die Qualität der Live-Übertragung von Vorträgen.