Projektstatus: Im Einsatz

doc2data - Dokumentverarbeitung durch ML vereinfachen

Wir beschleunigen Verwaltungsabläufe mit künstlicher Intelligenz.

Sergej Levich
#Runde11 #KI/ML #Softwareinfrastruktur

Welche gesellschaftliche Herausforderung adressiert euer Prototyp?

In der Praxis beschränkt sich die Digitalisierung von Dokumenten größtenteils auf Texterkennung und Verschlagwortung, weswegen viele Aufgaben in der Sachbearbeitung noch immer manuell, und damit mühsam, fehleranfällig und nicht barrierefrei, ausgeführt werden.

Der erste Schritt in der Dokumentenverarbeitung ist zumeist die Bewertung der Informationselemente (z. B. Tabellen, Nummern, Adressen) des Dokuments. Aufgrund der Menge der Arbeitsanstöße, die bei Verwaltungsaufgaben anfallen, führt die manuelle Arbeit zu einer stark verlangsamten Bearbeitung dieser Informationselemente. Darunter leiden schließlich die Anliegen von Bürger*innen.  Ausnahmezustände, wie beispielsweise die derzeitige Covid-Pandemie, zeigen deutlich, wie schnell die öffentliche Verwaltung aufgrund solcher ineffizienten Bearbeitung von Anträgen, Kontaktrückverfolgungen oder Ähnlichem an ihre Grenzen kommt. In den letzten Jahren haben ML-Modelle signifikante Sprünge in den Bereichen Sprachverarbeitung und Verständnis von Dokumenten gemacht, und könnten damit die Verwaltungsarbeit maßgeblich entlasten. Diese Technologien sind jedoch aktuell großen und finanzstarken Organisationen vorbehalten.

Dieses Projekt soll die Kluft zwischen Forschung und Praxis schließen. Ziel ist die Vereinfachung der (Sach-)bearbeitung von Dokumenten, indem diese durch ein ML-Modell zu strukturierten Datensätzen verarbeitet werden. Dazu wird eine Open-Source-Bibliothek in Python entwickelt und in Arbeitsabläufen einer Behörde pilotiert.

Wie geht ihr das Problem an?

Doc2data ist so konzipiert, dass die Nutzung auch für Entwickler*innen ohne ML-Kenntnisse möglich sein wird.

Durch die Python-Bibliotheken PDF-Miner und pd3f werden zuerst aus PDFs die Textbausteine extrahiert. Bei Scans im Bildformat wird eine OCR Engine angewendet. Anschließend werden die Textbausteine durch ein ML-Modell anhand gängiger Kategorien (z. B. Überschriften, Nummern, etc.) kategorisiert und die Struktur des Dokuments ermittelt. Das Resultat wird dann für die Weiterverarbeitung verfügbar gemacht.

Zusätzlich wird auf Basis von Streamlit ein kompaktes UI entwickelt. Die Funktionalität, welche den Upload, die graphische Darstellung der inferierten Dokumentstruktur sowie den Download der Ergebnisse umfasst, kann über einen Docker Container Sachbearbeiter*innen direkt zur Verfügung gestellt werden.

An wen richtet sich euer Tool?

Die Zielgruppe dieses Projektes umfasst Organisationen, die ressourcenintensiv Dokumente verarbeiten. Dazu zählen Behörden, Stiftungen, NGOs und Public-Interest-Projekte. Durch die Open-Source-Bibliothek kann die Funktionalität von Entwickler*innen direkt in ihre Anwendungen integriert werden. Alternativ soll die inkludierte Anwendung direkt von Sachbearbeiter*innen genutzt werden.