Projektstatus: Im Einsatz

Transcribee

Wir erschaffen ein leicht bedienbares Transkriptionswerkzeug.

Jaro Habiger, pajowu, Robin Heinemann, Philipp Mandler
#Runde13 #Diversität/Inklusion #Web-Apps

Welche gesellschaftliche Herausforderung adressiert euer Prototyp?

Durch Transkripte können in sprachlastigen Formate wie Podcasts und Videos Barrieren abgebaut werden. Hierzu ist es wünschenswert, hochqualitative Transkriptionen von Audio- und Video-Aufnahmen zu  erstellen. Doch gerade bei längeren Aufnahmen ist die Transkription ein immenser Aufwand, der entweder viel Zeit kostet oder schlicht nicht  geleistet werden kann. Die Transkription als Dienstleistung zuzukaufen ist für viele, gerade ehrenamtliche, Produktionen zu teuer. Daher verzichten viele Produktionen leider auf Transkripte. Auch qualitative Forschung benötigt oft als ersten Schritt gute  Interview-Transkripte. Hier stehen die Forscher*innen vor dem gleichen Problem: Diese zu erstellen bedeutet entweder großen Aufwand oder hohe  Kosten für professionelle Transkriptionsdienstleister. Bei der Transkription kann mithilfe von moderner Computersoftware viel Arbeit gespart werden. Transcribee ist eine Webplattform, die es erlaubt, gemeinsam Transkripte von Audio- und Videoaufnahmen zu erstellen. Dabei nutzen wir automatischer Spracherkennungs-Software, um große Teile der Arbeit automatisch zu erledigen und die Nutzer*innen zu entlasten. Dies erlaubt es Produzent*innen von Audio- wie Videoformaten, Untertitel mit viel geringerem Aufwand zu erstellen und ihre Formate damit barriereärmer zu gestalten. Außerdem werden so die Inhalte leichter auffindbar. Darüber hinaus ermächtigt es Forscher*innen,  Forschungsinterviews schneller selbst zu verschriftlichen.

Wie geht ihr das Problem an?

Um ein Transkript zu erstellen, durchlaufen die Nutzer*innen innerhalb des Tools 5 Schritte. Zuerst importieren sie eine Audio- oder Videodatei, wobei ein automatisches Transkript erstellt wird. Danach folgt die manuelle Korrektur dieses Transkripts. Darauf hin wird der Text zum Ton automatisch re-aligned. Im vierten Schritt gibt es eine manuelle Korrektur des Re-Alignments und zum Schluss wird das Transkript exportiert.  Für viele dieser Teilprobleme gibt es bereits gute Open-Source-Bibliotheken, die wir verknüpfen und einfach nutzbar machen. Dazu erstellen wir ein leistungsfähiges Backend sowie eine leicht zu bedienende Web-UI. Für das Webinterface entwickeln wir eine React-basierte App, das Backend gestalten wir mit Python, da die meisten Open-Source-Bibliotheken entweder selbst auf Python basieren oder gute Python-Schnittstellen anbieten. Bei Transkription sind dies zum Beispiel Kaldi/Vosk oder Facebooks Wav2Vec2-Modelle. Für das Erkennen und Unterscheiden von Sprecher*innen in Texten nutzen wir pyannote.audio und für das zeitliche Zuordnen von Texten zu ihrer Audio-Quelle („Alignment“) anaeas oder der Montreal Forced Aligner.

An wen richtet sich euer Tool?

Das Projekt kann von allen genutzt werden, die Aufnahmen transkribieren wollen. Jedoch wollen wir uns im Rahmen der Förderung vor allem auf zwei Gruppen konzentrieren: Produzent*innen von Podcasts und Videos sowie Forscher*innen.