11.Nov 2024

Die neue Definition für Open-Source-KI: der Auftakt einer laufenden Debatte

Vor zwei Wochen hat die Open Source Initiative (OSI) ihre neue Definition für Open-Source-KI veröffentlicht. Das Ergebnis des fast zwei Jahre andauernden Multi-Stakeholder-Verfahren der OSI wird allerdings von vielen Seiten kritisiert. Mit der neuen Definition hat die Debatte darüber, was Open-Source-KI ist, gerade erst begonnen.

Gestartet wurde der Definitionsprozess, weil das bisherige Verständnis von Open-Source-Software für die Klassifizierung von KI-Anwendungen unzureichend ist. Dem liegt die Annahme zugrunde, dass frei lizenzierter und veröffentlichter Code ausreicht, um Software uneingeschränkt nutzen, untersuchen, ändern und teilen zu können. Die Funktionsweise von KI-Anwendungen ist jedoch nur in Kombination mit Daten und Trainingsparametern festgelegt. Der OSI-Definition für Open-Source-KI nach ist deshalb neben der Veröffentlichung des Modellcode unter Open-Source-Lizenz erforderlich, dass Modellparameter und Informationen über die verwendeten Trainingsdaten frei verfügbar gemacht werden. Kritiker*innen der Definition gehen diese Bedingungen allerdings nicht weit genug.

Uneinigkeit über die Open-Source-Prinzipien

Große Uneinigkeit besteht darüber, ob Informationen über die verwendeten Trainingsdaten ausreichen oder nicht vielmehr die Trainingsdaten selbst zwingend offen verfügbar sein müssen. Die OSI begründet die Einschränkung der Veröffentlichungspflicht damit, dass nicht alle Trainingsdaten geteilt werden können – etwa wenn es sich um sensible, personenbezogene Daten wie Gesundheitsdaten, Daten von indigenen Völkern oder urheberrechtlich geschützte Daten handelt. Zudem gehöre es traditionell nicht zu den Open-Source-Prinzipien, Reproduzierbarkeit durch Open-Source-Software zu ermöglichen, sondern nur, diese nicht zu behindern.

Dem steht die Auffassung entgegen, dass Reproduzierbarkeit ein zentrales Kriterium für Open-Source-Software ist. Der Berater und Autor tante / Jürgen Geuter vertritt diese Position und hält KI-Modelle, deren Trainingsdaten nicht veröffentlicht werden, deshalb lediglich für Freeware, also für Software, die zwar kostenlos nutzbar, aber nicht untersuchbar, änderbar und teilbar ist. Um Open-Source-KI erreichen zu können, müssten seiner Meinung nach grundsätzliche Probleme wie Lizenzfragen für Offene Daten gelöst und nicht die Definition von Open-Source-KI der Realität angepasst werden.

Noch unentschieden zeigt sich die Free Software Foundation (FSF), die neben der OSI als zweite wichtige Organisation definiert, was unter Open-Source-Software zu verstehen ist. Auch sie arbeitet seit Mai 2024 an einer Kriterienaufstellung für Freie Machine-Learning-Anwendungen und tendiert bisher dazu, eine Veröffentlichung von Trainingsdaten zu fordern. Während die FSF das Zurückhalten von Trainingsdaten zwar den Nutzenden gegenüber für ungerecht erklärt, hält sie es jedoch unter Umständen für moralisch gerechtfertigt.

Unvereinbare Ziele

Der Diskussion um die Veröffentlichung von Trainingsdaten und Open-Source-Prinzipien liegt die Frage zugrunde, welche Ziele durch die Definition von Open-Source-KI erreicht werden sollen. Auch darüber gehen die Meinungen auseinander.

Für die OSI steht das Bestreben im Vordergrund, eine breite Akzeptanz für ihre Definition zu erzielen und so ihre Rolle als Zertifizierungsinstanz für Open-Source-Lizenzen zu erhalten. Stefano Maffuli, dem Executive Director der OSI, zufolge schaffe eine breit akzeptierte Definition geringere Kosten und Reibungsverluste bei der Einhaltung von Open-Source-Vorschriften, die z. B. dadurch entstehen könnten, dass sich unterschiedliche Lizenzen für offene KI-Modelle durchsetzen.

Einige Kommentator*innen wünschen sich dagegen eine Definition, die den Status Quo verändert, indem sie Ideale definiert, denen gerade große Tech-Unternehmen tendenziell nicht zustimmen würden. Ihre Trainingsdatensätze bedeuten für sie bisher einen entscheidenden Wettbewerbsvorteil. Dass die Definition für Open-Source-KI auf diese Weise einen Beitrag zu mehr Wettbewerb leisten sollte, fordert beispielsweise Zuzanna Warso, Forschungsdirektorin der gemeinnützigen Organisation Open Future. Sie sieht die Definition als Werkzeug, um die Machtkonzentration in Frage zu stellen.

Angesichts der gegensätzlichen Positionen, die der OSI-Definitionsprozess offengelegt hat, sorgt die neue Definition für Open-Source-KI bislang nur bedingt für mehr Klarheit. Bradley M. Kuhn, der als Policy Fellow für die Software Freedom Conservancy arbeitet, kommt deshalb zu dem Schluss, dass die OSI ihre Definition voreilig verabschiedet hat. Seiner Meinung nach wäre zum jetzigen Zeitpunkt allenfalls eine Empfehlung sinnvoll gewesen. Einer Definition hätte dagegen ein längerer Diskussionsprozess vorausgehen müssen, der in Bezug auf die Veröffentlichung von Trainingsdaten sowohl ehrenamtliche Softwareentwickler*innen als auch Datenerzeuger*innen wie Künstler und Autorinnen stärker einbezieht. Die Veröffentlichung der OSI-Definition für Open-Source-KI ist also nur der Beginn der Debatte. Genauso wie bei anderer Software wird weiter auszuhandeln sein, ob die Open-Source-Prinzipien allein dazu dienen, technische Standards und Anwendungen zu etablieren, oder ob sie auch dabei helfen können, einen Gegenentwurf zu den von kommerziellen Interessen getriebenen technischen Lösungen der großen Softwarekonzerne zu entwickeln.

 

Die neue Definition für Open-Source-KI: der Auftakt einer laufenden Debatte