Projektstatus: Im Einsatz

Zee

Wir bauen Werkzeuge für besser nutzbare Sprachanwendungen.

Rany Keddo
#Runde14 #Audio/Video #Diversität/Inklusion

Welche gesellschaftliche Herausforderung adressiert euer Prototyp?

Sprachtechnologien, bei denen Maschinen menschliche Sprache verstehen, verarbeiten oder ausgeben, werden zunehmend wichtiger. Viele der zugrunde liegenden Technologien sind kommerziell und werden von großen Unternehmen kontrolliert, während quelloffene Lösungen meist durch weniger Ressourcen, kleinere Teams und weniger umfangreiche Datensätze eingeschränkt sind. Das Projekt bietet eine Sammlung an grundlegenden Bibliotheken für die Synchronisierung von Text und Ton bei der Transkription (Alignment) und für die korrekte synthetische Aussprache von Text durch den Computer (Phonemisierung). Der Fokus in Zee liegt in dieser Förderung auf dem Alignment. Gepaart mit einer einfach zu benutzenden Web-Oberfläche gibt das Projekt sowohl Entwickler*innen die Werkzeuge für eigene Sprachsoftware als auch Nutzer*innen die Möglichkeit, sich zum Beispiel Texte korrekt vorlesen zu lassen.

Wie geht ihr das Problem an?

Zee wird Bibliotheken mit entsprechenden Benutzeroberflächen zur Verfügung stellen. Die erste ist Timething, eine Bibliothek für das Alignment auf Buchstaben- und Phonemebene, die Word2Vec2.0- Modelle und dynamisches Time Warping zur Berechnung von Alignments verwendet. Dazu können Benutzer*innen mit der Timething UI Audio- oder Videodateien hochladen, Untertiteldaten empfangen und untertitelte Inhalte über die Benutzeroberfläche abspielen. Timething UI ist eine in Vue.js implementierte Weboberfläche und ein in Python geschriebener Backend-Service. Der Fokus liegt in dieser Version auf Timething. Die zweite Bibliothek ist Phonething, mit der Wörter in ihre Aussprache umgewandelt werden können. Mit Word2Vec2.0 wird ein Datensatz von Buchstaben-Phonem-Zuordnungen erstellt und anschließend werden mit diesen Daten sprachspezifische Sequenz-zu-Sequenz-Modelle trainiert. Die Phonething UI, eine in Vue.js implementierte Weboberfläche und ein in Python geschriebener Backend-Service, erlaubt es Benutzer*innen, einen Satz einzugeben und die korrekte Aussprache der Wörter im Browser zu hören und zu sehen.

An wen richtet sich euer Tool?

Zee richtet sich an Entwickler*innen von freien Sprachtechnologien und an Benutzer*innen von vereinfachten Webschnittstellen, die keine technischen Kenntnisse erfordern. Zee kann auch dabei helfen, die Aussprache von Worten zu lernen und so ein Werkzeug für alle sein, die eine Sprache erlernen.