Audapolis
Wir bauen eine Desktop-Software für Audio-Schnitt des gesprochenen Wortes.
Welche gesellschaftliche Herausforderung adressiert euer Prototyp?
Radiosendungen, Podcasts oder Hörbücher: Aufzeichnungen von gesprochenen Worten sind ein wichtiger Teil unseres kulturellen und demokratischen Miteinanders. Doch die Produktion von hochwertigen Audiobeiträgen ist zeitaufwändig und erfordert viel Erfahrung in der Post-Production.
Bisher werden hierzu verschiedene Audioeditoren wie Adobe Audition oder Audacity verwendet. Diese Lösungen bieten jedoch keine visuelle Darstellung des gesprochenen Inhalts. Deswegen müssen häufig ganze Audiodokumente oder Passagen mehrmals durchgehört werden. Das ist sehr zeitintensiv, unübersichtlich und anstrengend.
Gerade Rohmaterial aus Quellen wie Parlamentsreden, Pressekonferenzen, Interviews oder neuen Medien wie Clubhouse ist deswegen nur mit hohem Aufwand für die üblichen journalistischen Formate zu erschließen.
Durch Verbesserungen in diesem Bereich der gesellschaftlichen Teilhabe werden Barrieren in der Produktion für zentrale kulturelle und politische Inhalte abgebaut. Es wird vielen Menschen ermöglicht, qualitativ hochwertige und quellenbasierte Audiobeiträge zu produzieren.
Wie geht ihr das Problem an?
Wir bauen eine Desktop-Software für Audio-Schnitt des gesprochenen Wortes. Die Software arbeitet nicht mit der Waveform der Aufnahmen, der Inhalt wird stattdessen auf der Textebene bearbeitet. Dafür werden die Audiodokumente automatisiert transkribiert. Im Transkript können dann Wortgruppen gelöscht und umsortiert werden. Zudem können andere Audiodateien eingefügt und damit die Audioebene bearbeitet werden.
Wir wollen unser Softwarepaket mit Web-Technologien und Python umsetzen und in einer Electron-App bündeln, um eine klassisch installierbare Anwendung zu erhalten.
Das User-Interface soll mit React in Javascript gebaut werden. Für verschiedene Datenverarbeitungsschritte wollen wir aufgrund der breiten Verfügbarkeit guter Bibliotheken Python verwenden. Um das User-Interface mit den Datenverarbeitungsschritten in Python zu verbinden, sollen diese über HTTP kommunizieren.
Der für unser Projekt sehr wichtige Schritt der automatischen Transkription soll mit vosk / kaldi implementiert werden, einem Open-Source-Paket, welches State-of-the-Art Speech-to-Text-Funktionalitäten bereitstellt. Zudem wollen wir uns mit dem Projekt Open Audio Search abstimmen und deren Tooling, Modelle und anderes (z. B. die Punctuation Reconstruction) mitverwenden.
An wen richtet sich euer Tool?
Die primäre Zielgruppe sind Journalist*innen, Podcaster*innen und Hörbuch-Macher*innen. Wir stehen bei allen drei Gruppen im Kontakt mit Multiplikator*innen, die Interesse an unserem Vorhaben haben und mit denen wir uns über die Anforderungen und Zielsetzung beraten haben.