Audapolis: Wir bauen eine Desktop-Software für Audio-Schnitt des gesprochenen Wortes.

Runde 10
Medien/Soziale Netzwerke
Anwendungssoftware

Zuletzt aktualisiert: 25/06/2025

GitHub

Siehe Demo Week

Über das Projekt

Team-Mitglieder

pajowu, Jaro Habiger

Förderzeitraum

01/09/2021 – 28/02/2022

Welche gesellschaftliche Herausforderung adressiert euer Prototyp?

Radiosendungen, Podcasts oder Hörbücher: Aufzeichnungen von gesprochenen Worten sind ein wichtiger Teil unseres kulturellen und demokratischen Miteinanders. Doch die Produktion von hochwertigen Audiobeiträgen ist zeitaufwändig und erfordert viel Erfahrung in der Post-Production.

Bisher werden hierzu verschiedene Audioeditoren wie Adobe Audition oder Audacity verwendet. Diese Lösungen bieten jedoch keine visuelle Darstellung des gesprochenen Inhalts. Deswegen müssen häufig ganze Audiodokumente oder Passagen mehrmals durchgehört werden. Das ist sehr zeitintensiv, unübersichtlich und anstrengend.

Gerade Rohmaterial aus Quellen wie Parlamentsreden, Pressekonferenzen, Interviews oder neuen Medien wie Clubhouse ist deswegen nur mit hohem Aufwand für die üblichen journalistischen Formate zu erschließen.

Durch Verbesserungen in diesem Bereich der gesellschaftlichen Teilhabe werden Barrieren in der Produktion für zentrale kulturelle und politische Inhalte abgebaut. Es wird vielen Menschen ermöglicht, qualitativ hochwertige und quellenbasierte Audiobeiträge zu produzieren.

Wie geht ihr das Problem an?

Wir bauen eine Desktop-Software für Audio-Schnitt des gesprochenen Wortes. Die Software arbeitet nicht mit der Waveform der Aufnahmen, der Inhalt wird stattdessen auf der Textebene bearbeitet. Dafür werden die Audiodokumente automatisiert transkribiert. Im Transkript können dann Wortgruppen gelöscht und umsortiert werden. Zudem können andere Audiodateien eingefügt und damit die Audioebene bearbeitet werden.

Wir wollen unser Softwarepaket mit Web-Technologien und Python umsetzen und in einer Electron-App bündeln, um eine klassisch installierbare Anwendung zu erhalten.

Das User-Interface soll mit React in Javascript gebaut werden. Für verschiedene Datenverarbeitungsschritte wollen wir aufgrund der breiten Verfügbarkeit guter Bibliotheken Python verwenden. Um das User-Interface mit den Datenverarbeitungsschritten in Python zu verbinden, sollen diese über HTTP kommunizieren.

Der für unser Projekt sehr wichtige Schritt der automatischen Transkription soll mit vosk / kaldi implementiert werden, einem Open-Source-Paket, welches State-of-the-Art Speech-to-Text-Funktionalitäten bereitstellt. Zudem wollen wir uns mit dem Projekt Open Audio Search abstimmen und deren Tooling, Modelle und anderes (z. B. die Punctuation Reconstruction) mitverwenden.

An wen richtet sich euer Tool?

Die primäre Zielgruppe sind Journalist*innen, Podcaster*innen und Hörbuch-Macher*innen. Wir stehen bei allen drei Gruppen im Kontakt mit Multiplikator*innen, die Interesse an unserem Vorhaben haben und mit denen wir uns über die Anforderungen und Zielsetzung beraten haben.

Audapolis: Wir bauen eine Desktop-Software für Audio-Schnitt des gesprochenen Wortes.

Über das Projekt

Team-Mitglieder

Förderzeitraum

Welche gesellschaftliche Herausforderung adressiert euer Prototyp?

Wie geht ihr das Problem an?

An wen richtet sich euer Tool?

Mehr Projekte wie dieses

BigBlueBetterAudio: Bessere Sprachqualität für das Videokonferenztool BigBlueButton

Zee: Wir bauen Werkzeuge für besser nutzbare Sprachanwendungen.

XRevent Broadcaster: Wir erstellen eine kostenfreie Software für Bildregie.

XR-Event Plattform: Wir ermöglichen Künstler*innen die Durchführung hybrider Cross-Reality Events.