Projektstatus: In Arbeit

DocDialog

Wir beantworten Fragen auf Grundlage eigener Dokumente.

Johannes Twiefel
#Runde15 #Datenschutz/Souveränität #KI/ML

Welche gesellschaftliche Herausforderung adressiert euer Prototyp?

Große Mengen an Dokumenten automatisiert auswerten und kompakt darstellen: Das ist eine der zentralen Fähigkeiten von KI. Doch der Einsatz der meisten Modelle ist mit der DSGVO nicht vereinbar und findet auf Rechnern Dritter statt. Wir möchten die Abhängigkeit von (US-)Firmen im Bereich KI verringern und eine datenschutzfreundliche Alternative bieten, die Question-Answering auf lokalen Dokumenten ermöglicht. So könnten beispielsweise Normen, Gesetze und Verwaltungsbescheide eingespeist werden und anschließend Fragen wie „Ich möchte eine PV-Anlage auf mein Dach bauen, welche Gesetze muss ich einhalten?“ oder „Ich möchte ein Carport anbauen, wie groß darf es sein?“ beantwortet werden.

Wie geht ihr das Problem an?

Mithilfe von Flask soll eine selbstbetreibbare Webplattform entwickelt werden, die in einer Postgres-Datenbank eigene Dokumente abspeichern und mithilfe von PyPDF2 Rohtext extrahieren kann. Das Large Language Model (LLM) basiert auf LeoLM, dem ersten wirklich nutzbaren deutschem Open-Source-LLM. Dieses kann auf einem normalen Rechner mit Grafikkarte lokal betrieben werden, sodass kein Internetanschluss bzw. Datenübertratung an Dritte benötigt wird. Mit LeoLM können sogenannte Embeddings (maschinenlesbare Vektor-Repräsentationen eines Textes) jedes Dokumentes erzeugt werden, die in einer Vektordatenbank abgespeichert werden und wiederum mit in Embeddings umgewandelten Fragen abgeglichen werden. LeoLM beantwortet abschließend die Frage, die kombiniert mit den entsprechend relevanten Dokumenten übermittelt wird. Die Antwort wird dann auf einer Webplattform dargestellt.

An wen richtet sich euer Tool?

Wir richten uns an alle, die große Mengen an Dokumenten kontextbasiert durchsuchen bzw. verstehen wollen. Das umfasst z.B. Bürger*innen, die Fragen über Normen, Gesetze und Vorschriften haben, Firmen oder Behörden, die interne Richtlinien vereinfachen wollen und alle anderen, die durch eine solche Lösung entlastet werden könnten.