Projektstatus: Im Einsatz

DocDialog

Wir beantworten Fragen auf Grundlage eigener Dokumente.

Johannes Twiefel
#Runde15 #Datenschutz/Souveränität #KI/ML

Welche gesellschaftliche Herausforderung adressiert euer Prototyp?

Große Mengen an Dokumenten automatisiert auswerten und kompakt darstellen: Das ist eine der zentralen Fähigkeiten von KI. Doch der Einsatz der meisten Modelle ist mit der DSGVO nicht vereinbar und findet auf Rechnern Dritter statt. Wir möchten die Abhängigkeit von (US-)Firmen im Bereich KI verringern und eine datenschutzfreundliche Alternative bieten, die Question-Answering auf lokalen Dokumenten ermöglicht. So könnten beispielsweise Normen, Gesetze und Verwaltungsbescheide eingespeist werden und anschließend Fragen wie „Ich möchte eine PV-Anlage auf mein Dach bauen, welche Gesetze muss ich einhalten?“ oder „Ich möchte ein Carport anbauen, wie groß darf es sein?“ beantwortet werden.

Wie geht ihr das Problem an?

Vorhandene Dokumente werden mit Hilfe von PyMuPDF4LLM seitenweise in Markdown umgewandelt. Es wird versucht, anhand der Markdown-Formatierungen Überschriften und Textblöcke zu identifizieren. Diese werden dann mit einem Embedding Model (bge_m3) in Vektorrepräsentationen (Embeddings) umgewandelt und in eine Vektordatenbank (FAISS) abgelegt. In einer GUI (gradio) können Fragen gestellt werden. Die Eingabefrage wird in ein Embedding umgewandelt und die Distanz zu allen vorhandenen Embeddings gemessen. Daraus wird eine Liste aus den relevantesten Textblöcke und Überschriften erzeugt, geordnet nach Relevanz für die Frage. Die gefundenen Textblöcke werden in einem Prompt zusammen mit der Frage an ein Large Language Model gegeben (LeoLM Mistral oder besser, je nach vorhandener Hardware). Die Antwort wird nun zusammen mit den Textblöcken (als Quellen) in der GUI angezeigt.

An wen richtet sich euer Tool?

Wir richten uns an alle, die große Mengen an Dokumenten kontextbasiert durchsuchen bzw. verstehen wollen. Das umfasst z.B. Bürger*innen, die Fragen über Normen, Gesetze und Vorschriften haben, Firmen oder Behörden, die interne Richtlinien vereinfachen wollen und alle anderen, die durch eine solche Lösung entlastet werden könnten.