Welche gesellschaftliche Herausforderung adressiert euer Prototyp?
Vulgäre Sprache von Nutzer*innen stellt Betreiber von Foren und ähnlichen Plattformen vor Herausforderungen. Vulgäre Sprache wird hier als Obermenge von sexistischer, rassistischer oder beleidigender Sprache verstanden. Diese tritt nicht nur in den Sozialen Medien auf, sondern auch in Foren (z. B. Nachrichtenportale) oder in Profilen (z. B. bei Datingportalen). Mittels einer auf einem transparenten Open-Source-KI-Modell basierenden Spracherkennung können hier Arbeitsschritte beim Betreiber der Plattform automatisiert werden und die Plattform damit von vulgärer Sprache weitestgehend befreit werden.
Wie geht ihr das Problem an?
Für die Datenaufbereitung und das Training des KI-Modells wird die Programmiersprache Python genutzt. Insbesondere ist die Bibliothek TensorFlow wichtig, denn hierüber lassen sich Neuronale Netze (Deep Neural Networks) trainieren. Im Bereich der Sprachverarbeitung sind insbesondere Transformer Netzwerke interessant. Bei der Textklassifikation werden bestehende und bereits vortrainierte Modelle genutzt. Für das Fein-Abstimmen müssen Hyperparameter beim Transformer Netz angepasst werden. Dafür eignet sich das Framework NNI von Microsoft. Um das Modell einem breiten Publikum zur Verfügung zu stellen, wird es anschließend in einem Docker Container eingebunden. Diese haben den Vorteil, dass sie unabhängig vom Betriebssystem lauffähig und ein weit verbreiteter Standard sind. Dieser Docker Container bietet eine REST Schnittstelle an, an die der zu klassifizierende Text gesendet wird. Anschließend wird ein Score zurückgesendet, der die Wahrscheinlichkeit für vulgäre Sprache angibt.
An wen richtet sich euer Tool?
Zielgruppen sind Anbieter von Onlinediensten, in denen Nutzer*innen Textbeiträge verfassen können.