Projektstatus: Im Einsatz

ML-basierte Übersetzungsfunktion für den LibreOffice Writer

Wir entwickeln einen lokal ausführbaren Übersetzungsservice auf KI-Basis.

Thomas Viehmann
#Runde5 #KI/ML #Datenschutz/Souveränität

Welches Problem willst du mit deinem Projekt lösen?

Mit dem Internet haben Sprachbarrieren an Bedeutung gewonnen, während andere Barrieren abgebaut wurden: Ob Texte oder Nachrichten grundsätzlich lesbar sind, hängt nicht mehr davon ab, ob Zugang besteht, sondern davon, ob der/die Leser*in der Sprache mächtig ist, in der diese verfasst sind. Maschinelle Übersetzung vermag die Sprachbarrieren zwar nicht ganz einzureißen, kann in vielen Alltagstexten jedoch dabei helfen, diese überwindbar zu machen.

Online-Übersetzungsservices haben derzeit noch drei wichtige Einschränkungen:

  1. Man gibt Privatsphäre auf – der Dienstleister kennt alle Texte, die man übersetzen lässt. Für sensible Texte ist das problematisch.
  2. Online-Services sind nicht immer und nicht vollumfänglich verfügbar.
  3. Mit einem Online-Service können formatierte Dokumente nur eingeschränkt übersetzt werden.

Daher soll nun eine Übersetzungsfunktion für das Textverarbeitungsprogramm LibreOffice etwickelt werden, die vollständig auf dem Computer des Nutzers ausgeführt wird. Ein Satz, Absatz oder ein ganzes Dokument wird per Knopfdruck mit KI maschinell übersetzt. Formatierungen des Textes wie Überschriften, Absätze, Fett- und Kursivdruck und ähnliches bleiben dabei erhalten.

Das Projekt macht somit eine aktuelle Entwicklung der KI-Forschung als Open-Source-Lösung für jeden auf dem eigenen Computer verfügbar. Bisher wird eine solche Funktion vor allem als (geschlossener) Service angeboten.

Wie löst dein Projekt das Problem?

Wir bauen auf OpenNMT auf, einer Neural Machine Translation-Software, die in der Natural Language Processing-Forschungsgruppe der Harvard-Universität entstanden ist. OpenNMT stellt im Bereich der maschinellen Übersetzung den aktuellen Stand der Forschung dar. Implementiert wird eine LibreOffice-Erweiterung (sozusagen eine App für LibreOffice) in der Programmiersprache Python. Wir nutzen also, insbesondere für die Oberfläche und das für Laden und Speichern der zu bearbeitenden Texte, eine führende Open-Source-Textverarbeitung.

In der Anwendung sind zwei Themen im Fokus:

Benutzerfreundlichekeit der Übersetzungsfunktion
Wir entwickeln aus der „reinen“ Übersetzungsfunktion, wie OpenNMT sie bereitstellt, eine für den Benutzer komfortable Lösung. Als erstes berücksichtigen wir die Text-Formatierungen (z.B. Kursiv- und Fettdruck) des Dokuments. Dafür wird eine Zuordnung von Quell- und Zieltext benutzt, die in der KI schon bisher als Nebenprodukt anfällt. Das Projekt entwickelt eine Oberfläche zur Veranschaulichung der Übersetzung und für manuelle Eingriffe. Dabei wird auf aktuelle Forschungsergebnisse zurückgegriffen.

Training der KI-Übersetzungsfunktion
Das Training der KI – bisher nur Experten zugänglich – soll ebenfalls allgemein verfügbar sein. Für das initiale Training der Modelle werden mehrsprachige Daten verwendet, die aus Transkripten des Europäischen Parlaments gewonnen wurden (der sogenannte EuroParl-Korpus). Im weiteren Verlauf soll eruiert werden, ob auch nicht satzweise zugeordnete Korpora – zum Beispiel Literatur des Projekts Gutenberg – genutzt werden können. Schließlich soll Benutzern ermöglicht werden, die Übersetzungs-KI mit eigenen Daten zu verfeinern.

An wen richtet sich dein Tool?

Die Zielgruppe sind Office-Benutzer, insbesondere solche, die aus Kostengründen oder Besorgnis über ihre Privatsphäre LibreOffice benutzen (Wikipedia gibt für den Vorgänger OpenOffice einen Marktanteil von ca. 20% in Deutschland an und 9-22% in Europa). LibreOffice hat einen Extension-Katalog (eine Art App-Store, https://extensions.libreoffice.org/). Dort wird die Erweiterung zur Verfügung gestellt und der Quelltext auf GitHub.