Der lange Weg zu Open Source Chatbots
Ein Beitrag von Joram Schwartzmann vom Prototype Fund
Kaum etwas dominiert die Berichterstattung der Tech-Welt so sehr wie ChatGPT. Der Chatbot des Unternehmens OpenAI begeistert nicht nur Nerds, sondern schafft es auch in Sphären, die sonst nicht unbedingt auf jeden Technologie-Trend aufspringen: Lehrer*innen lassen Texte zusammenfassen, Autor*innen schreiben Geschichten und Musiker*innen komponieren Liedtexte mit Hilfe einer künstlichen Intelligenz. Andere, wie der Musiker Nick Cave, haben ChatGPT gegenüber eher ein Höllenfeuer in den Augen. Es mehren sich die Stimmen, die sich sorgen: was bedeutet es für die Ausbildung, wenn Texte nicht mehr von Studierenden geschrieben werden? Wie werden wir in Zukunft Informationen finden? Und was bedeutet es für die Open-Source-Community, wenn einige wenige Unternehmen kritische Software kontrollieren? Für uns, als Fans von freier Software, wird es Zeit, sich ChatGPT und seine engen Verwandten einmal genauer anzuschauen.
Doch zuallererst: was ist ChatGPT eigentlich? Aus Sicht einer Nutzerin liefert ChatGPT eine einfache Eingabemaske. Fragen, Aufforderungen und Aufgabenbeschreibungen beantwortet das Programm mit einem automatisch generierten Text, der häufig kaum von der Antwort eines Menschen zu unterscheiden ist. ChatGPT schreibt Gedichte, Kochrezepte und sogar Code und begeistert dadurch ein breites Spektrum an Nutzer*innen. Nach Jahren der Sci-Fi-Erzählung können wir uns nun endlich mit Computern unterhalten und sie verstehen uns (scheinbar).
Die zugrunde liegende Technologie ist für die einen nicht mehr als geschickte Statistik und für andere eine Nachbildung der menschlichen Denkprozesse. Das von dem US-amerikanischen Unternehmen OpenAI entwickelte Large Language Model (LLM) GPT3 ist in der Lage, Zusammenhänge zwischen Begriffen herzustellen und so den Sinn von Sätzen zu entschlüsseln. Das Sprachmodell kann zum Beispiel das Wort „Bank“ je nach Satz-Kontext im Bereich von Parks oder von Geldinstituten verorten und begeistert so seit 2020 Forscher*innen. Dank GPT3 können Chatbots komplexe Sätze entschlüsseln anstatt nur auf ein paar Keywords zu reagieren.
Richtig begeistert haben die GPT3-Modelle mit ihrer Fähigkeit, auch eine Antwort zu generieren. Basierend auf einem großen Pool an Trainingsdaten kann die Software die jeweils nächsten passenden Worte vorhersagen – eben dank geschickter Statistik. GPT3 wählt immer das nächst-wahrscheinlichste Wort aus und baut so Stück für Stück die Antwort zusammen. Das Ergebnis liest sich wie ein von Menschen geschriebener Text. Die Fakten in dem Text sind dabei nicht zwingend korrekt, sie klingen nur so, als ob sie wären. Das ist einer der Nebeneffekte der Wahrscheinlichkeitsrechnung in LLM – der Chatbot weiß nicht, er vermutet nur.
Seit der Veröffentlichung von GPT3 hat OpenAI das Sprachmodell weiterentwickelt und basierend auf Version 3.5 schließlich ChatGPT entwickelt. Dafür wurden die Antworten des Sprachmodells ausführlich von Menschen bewertet und sortiert. Dieses Verfahren nennt sich Reinforcement Learning with Human Feedback (RLHF) und ist aufgrund der Beteiligung von echten Menschen ziemlich aufwendig und teuer. Ein verhältnismäßig kleines Sprachmodell kostet schnell 1,6 Millionen $, leistungsfähige Modelle wie das von OpenAI oder die angekündigten Entwicklungen von Google und Microsoft kosten ein Vielfaches davon.
Auch wenn der Name des Unternehmens es vermuten lässt, ist das Sprachmodell von OpenAI nicht Open Source. Microsoft hat die exklusiven Rechte an der Software gekauft und gestattet die Nutzung über eine API. Das Modell selbst ist nicht offen. Mittlerweile gibt es jedoch einige Alternativen, die tatsächlich quelloffen sind. Philip Wang hat zum Beispiel mit PaLM + RLHF ein solches Open-Source-LLM veröffentlicht, das auch einen Blick in den zugrunde liegenden Code erlaubt. Das Modell muss jedoch noch trainiert werden, was hunderte teure GPUs benötigt. Hinzu kommt: ein Sprachmodell aktiv als Web-Service laufen zu lassen, kostet schnell viel zehntausend Euro im Jahr.
Das ist für die Open-Source-Community nur schwer zu stemmen. Daher wird die technische Entwicklung momentan vor allem von den großen Tech-Unternehmen dominiert. Microsoft, Google und auch Meta entwickeln eigene Versionen dieser LLM und planen deren Verwendung in Suchergebnissen oder anderen Produkten. Entwickler*innen können derzeit nur diese kommerziellen LLM nutzen und bauen so etwa Sprachassistenten, die im Smart Home das Licht ausschalten. Das weckt Erinnerungen an einen gewissen Androiden mit dem Gehirn von der Größe eines Planeten, dessen mondäne Aufgabe es ist, Besucher*innen zur Raumschiffbrücke zu begleiten.
Alleine das Schritthalten mit der technischen Entwicklung ist für Open-Source-Lösungen also eine Herausforderung. Dabei ist es essentiell für die Gesellschaft, auch bei LLM auf quelloffene Technologien zu bestehen. LLM werden die Interaktion zwischen Mensch und Maschine prägen und gerade deswegen braucht es hier Transparenz durch Open Source. LLM müssen auf systematische Benachteiligung, sog. Bias, kontrolliert werden und sie müssen allen Nutzer*innen zur Verfügung stehen. Open-Source-Alternativen zu kommerziellen LLM können deren Marktmacht brechen oder zumindest in Frage stellen.
Einen Weg dahin könnte BLOOM aufzeigen. Das Open-Source-LLM wird von BigScience entwickelt, einem Zusammenschluss des Unternehmens HuggingFace mit dem französischen Rechenzentrum GENCI und dem französischen Informatik-Forschungsinstitut IDRIS. Dank der Beteiligung von öffentlichen Forschungseinrichtungen konnte BLOOM auf beträchtliche Rechenressourcen zum Training zugreifen. Zur Zeit benötigt BLOOM noch sehr kostenintensive Hardware, um nutzbar zu sein. Die beteiligten Entwickler*innen haben jedoch bereits angekündigt, eine verschlankte und weniger ressourcenintensive Version anbieten zu wollen.
Hier liegt die Chance für freie Open-Source-Entwicklungen. Entwickler*innen können entweder direkt an BLOOM mitarbeiten oder Services bauen, die auf BLOOM oder ähnlichen LLM aufsetzen und so freie Alternativen zu ChatGPT anbieten. Das ambitionierte Vorhaben wird aber nicht ohne weitere öffentliche Förderung auskommen. Es müssen sowohl Entwickler*innen unterstützt als auch große Mengen Rechenressourcen zur Verfügung gestellt werden. Auch wenn die Kosten in Zukunft sicherlich sinken werden, ist die Entwicklung von leistungsstarken LLM immer noch ein millionenschweres Projekt. Doch könnte die Kollaboration von öffentlicher Forschung mit Open-Source-Entwickler*innen hier die entscheidenden Energien freisetzen, die eine Entwicklung von Alternativen zu kommerziellen LLM auf Augenhöhe ermöglicht.
Joram Schwartzmann arbeitet beim Prototype Fund in der Kommunikation. Er setzt sich kritisch mit technologischen Entwicklungen im gesellschaftlichen Kontext auseinander.