17.Apr 2024

Das Ringen um Open-Source-KI

An generativer KI kommt auch der Prototype Fund nicht vorbei. In den vergangenen Bewerbungsrunden sind immer mehr Bewerbungen für Projekte eingegangen, die Methoden der Künstlichen Intelligenz (KI) bei der Entwicklung nutzen oder kritisch begleiten. Deshalb haben wir als Förderprogramm uns in unserem Trendbericht Generative KI in der Hand der Zivilgesellschaft mit dem Thema auseinandergesetzt. Die Ergebnisse stellen wir in unserer dreiteiligen Blogreihe vor.

Die freie Verfügbarkeit von KI-Modellen und -Anwendungen hat in den letzten Jahren maßgeblich zu deren Popularität und Weiterentwicklung beigetragen. Nicht selten ist im Zusammenhang mit diesen Modellen und Anwendungen auch die Rede von Open Source. Was Open-Source-KI ist und warum die zugrundeliegenden Prinzipien wünschenswert sind, muss aus drei Gründen neu eingeordnet werden.

1. Open Washing

KI-Technologien werden immer häufiger strategisch, ohne geeignete Lizenz oder Code-Veröffentlichung als Open Source bezeichnet. Besondere Aufmerksamkeit erregte im letzten Jahr das Sprachmodell Llama 2 des Softwarekonzerns Meta. Die Lizenz des vermeintlich als Open-Source-KI veröffentlichten Sprachmodells begrenzt die Nutzung für kommerzielle Zwecke. Das ist ein Verstoß gegen eines der Grundprinzipien von Freier und Open-Source-Software, wonach anderen offenstehen muss, die Software für ihre eigenen Zwecke und ohne Einschränkung zu nutzen. Durch Open Washing versuchen Softwareunternehmen, auch ohne wirkliche Offenheit vom zunehmend positiven Image von Open-Sourcen-Software zu profitieren. Während das Phänomen Open Washing schon seit einigen Jahren diskutiert wird, gewinnt es in letzter Zeit im Zusammenhang mit KI an Relevanz. Fehlendes Wissen darüber, was Open Source bedeutet, oder auch Unaufmerksamkeit können dazu führen, dass der Begriff missbraucht wird. Das Label Open Source muss daher – ähnlich wie die als Greenwashing bezeichneten falschen Nachhaltigkeitsverprechen – besonders bei KI ständig hinterfragt und mit den Open-Source-Prinzipien abgeglichen werden.

2. Missbrauchsrisiken von KI

Einzuschränken, wer KI-Modelle und -Anwendungen zu welchen Zwecken nutzen darf, ist nicht in allen Fällen durch kommerzielle Interessen motiviert. Auch die Sorge vor Missbrauchsrisiken führt dazu, dass die Open-Source-Prinzipen für KI auf den Prüfstand gestellt werden. Zu den diskutierten Risiken gehören beispielsweise die Verbreitung von Fake News und Kinderpornographie. Als mögliche Antwort auf diese Risiken werden sogenannte Open Responsible AI Licenses (OpenRAIL) gehandelt. Sie erlauben zwar grundsätzlich die Modifikation und Weiterverbreitung veröffentlichter KI-Systeme und sind damit an Open-Source-Prinzipien angelehnt, verbieten aber bestimmte Nutzungsformen. Unter einer solchen Lizenz hat beispielsweise ein Team der Ludwig-Maximilians-Universität München sein populäres Text-zu-Bild-Modell Stable Diffusion veröffentlicht. Darüber, ob dieser Ansatz sinnvoll ist, besteht bislang Uneinigkeit. Einige Beobachter setzen sich für weiterreichende Maßnahmen ein und fordern sogar, die vollständige Veröffentlichung besonders großer KI-Modelle unter einer Open-Source-Lizenz zu verbieten. Andere befürchten dagegen, dass bereits eine Einschränkung der Nutzungsfreiheit letztlich zu Zensur und einer großen Abhängigkeit von der willkürlichen Interpretation der Nutzungsmöglichkeiten durch große Technologie unternehmen führen könnten. Ein weiterer möglicher Einwand ist, dass zumindest das US-amerikanische Urheberrecht eine Einschränkungen der Nutzungsfreiheit für KI-Modelle gar nicht ermöglicht, weil dessen Anwendbarkeit auf Modellparameter zweifelhaft ist. Genauso wie Open Washing ist die Diskussion um Missbrauchsrisiken von Open-Source-Software insgesamt nicht für KI spezifisch. Die mit neuen KI-Technologien in Verbindung gebrachten Risiken sind lediglich größer. Ob sie so groß sind, dass sie die Vorteile einer vollständigen Offenheit von Open-Source-Software überwiegen, bleibt zu diskutieren.

3. Die Definition von Open-Source-KI

Grundsätzlich neue Fragen stellen sich bei KI weniger in Bezug darauf, welche Nutzung die Lizenzen von KI-Modellen und -Anwendungen zulassen, sondern vielmehr bezüglich der Form ihrer Veröffentlichung. Traditionell sieht die Open-Source-Definition vor, dass der Softwarecode veröffentlicht wird. Diese Definition ist für KI unzureichend, weil der Modell-Code allein nicht Aufschluss über dessen Funktionsweise geben kann. Sie ist nur in Kombination mit Daten und Trainingsparametern festgelegt. Aus diesem Grund befasst sich die Open Source Initiative (OSI) zurzeit mit der Definition von Open-Source-KI. Im Gespräch sind dabei aktuell deutlich umfangreichere und spezifischere Anforderungen als in der bisherigen Open-Source-Definition der OSI. Zu den Anforderungen gehört die Veröffentlichung von Informationen zu Trainingsdaten, des für die Datenaufbereitung und das Training verwendeten Codes sowie der Modellarchitektur und -parameter. Optional, aber empfohlen, sind zusätzliche Informationen wie die Trainingsdaten selbst, Model Cards oder technische Reports. Der AI Act konkretisiert auf ähnliche Weise, welche Bedingungen für Open-Source-KI gelten müssen, damit um von gesetzlichen Vorgaben ausgenommen sein zu können. Erste Definitionen für Open-Source-KI entstehen also gerade erst und müssen ihren Weg in die Praxis erst finden.

Das Ringen um Open-Source-KI