Transparente und reproduzierbare Forschung dank Open-Source-Software
FOSS (Free and Open Source Software) ist aus der Wissenschaft nicht weg zu denken. Datenanalysen werden in Python geschrieben, mit Fiji werden Bilddaten analysiert und Dateien werden über Nextcloud-Installationen auf Institutsservern geteilt. Offenes Wissen bedingt offenen Code, sollte man meinen. Doch zwischen Ideal und Realität gibt es oft große Unterschiede: Gerade in den Naturwissenschaften wird Code zwar von Wissenschaftler*innen geschrieben und genutzt, jedoch nicht immer mit anderen Menschen unter offenen Lizenzen geteilt.
Beim Prototype Fund fördern wir immer wieder Projekte mit Bezug zu Forschungsthemen. So finden sich in der 13. Förderrunde zum Beispiel das Tool gget, mit dem der kombinierte Zugriff auf genomische Datenbanken erleichtert wird, Tauritron, ein Werkzeug für Energiesystemstudien, BrightSkyPlus, einer Webanwendung für Wetterdaten oder Boundary Agents, einer Visualisierung der Geschichte von BIPOC im Europa der frühen Neuzeit. Diese Vielfalt nehmen wir zum Anlass, uns die Beziehung von FOSS und Forschung einmal genauer anzusehen.
In der Forschung allgemein und den Naturwissenschaften im besonderen wird Code immer wichtiger. Neue Analysemethoden erzeugen immer größere Datenmengen, die nur noch über Algorithmen sinnvoll ausgewertet werden können. Software wird so zum elementaren Bestandteil der wissenschaftlichen Arbeit, doch anders als zum Beispiel eine Beschreibung der verwendeten experimentellen Methoden muss Code meist nicht als Teil der Ergebnisse veröffentlicht werden. Die Entscheidung über die Veröffentlichung liegt meist ausschließlich bei der Forscher*in, die den Code geschrieben hat. Und viele entscheiden sich dagegen.
„Es gibt einen großen Druck, die Software vor einer Veröffentlichung maximal ‚schön zu machen‘, aus Angst, dass der Code verrissen wird oder nicht benutzt wird, was meiner Erfahrung aber nur sehr selten der Fall ist“, sagt dazu Simon Danisch, Entwickler von Makie, einem Ökosystem für Datenvisualisierung für die Programmiersprache Julia, das vom Prototype Fund in der Runde 7 gefördert wurde. Simon Danisch arbeitet selbst nicht direkt im akademischen Betrieb, dennoch ist für ihn die Softwareentwicklung in diesem Bereich besonders interessant. „Wissenschaftliche Anwendungen sind meiner Ansicht nach oft spannender als in anderen Bereichen, und die Chance, mit intelligenten, nicht von Geld getriebenen Menschen zu arbeiten, ist höher als außerhalb der Wissenschaft, was ich als sehr positiv empfinde.“
Open-Source-Software ist ein Weg aus der Reproduktionskrise
Auch für die Wissenschaft ist die Veröffentlichung von Code unter freien Lizenzen ein Gewinn, der über ethische Ideale hinaus geht. „Die Veröffentlichung von Code ermöglicht es anderen Forschern, ihre Ergebnisse zu reproduzieren, was für den wissenschaftlichen Prozess unerlässlich ist“, sagt dazu Stefanie Lück. Als Python-Entwicklerin arbeitet sie seit rund 15 Jahren an freier Software und hat unter anderem die Software BluVision entwickelt, mit der die Interaktion von Pflanzen und Krankheitserregern analysiert werden kann.
Die Reproduzierbarkeit von Experimenten ist ein ständiges Thema in der Forschungslandschaft. Gerade in der Biologie scheitern Forscher*innen immer wieder daran, publizierte Ergebnisse zu reproduzieren und somit zu verifizieren. Die Gründe dafür sind vielfältig, häufig erschwert die komplexe Biologie lebender Systeme die exakte Wiederholung von Experimenten. Es gibt aber auch Bereiche, wie etwa die Analyse von genomischen Daten, in denen sich Ergebnisse einfach überprüfen ließen, wenn alle Teile der Analyse frei veröffentlicht werden würden. Für eine transparente und reproduzierbare Forschung ist es unerlässlich, dass sowohl Datensätze als auch der Code für deren Analyse frei veröffentlicht werden. Das stärkt den gesamten Prozess der wissenschaftlichen Arbeit.
Mit der einfachen Veröffentlichung von Code in einem Repository ist es jedoch nicht getan. Funktionaler Code muss erhalten und gepflegt werden. „Ein großes Problem ist jedoch, dass nicht alle Forscher*innen Code veröffentlichen und selbst wenn dies der Fall ist, werden die Erhaltung und Updates meist von Einzelpersonen übernommen“, sagt Dr. Elisabeth Kugler. Sie ist Biologin und entwickelt Open-Source-Software zur Analyse von Mikroskopie-Daten.
Software braucht Support
Die geschriebene Software zu unterhalten, könne zwar herausfordernd sein, die Veröffentlichung lohne sich aber trotzdem, sagt Stefanie Lück: „Im Hinblick auf die Veröffentlichung von wissenschaftlicher Open-Source-Software sollte der Gedanke an mögliche Supportanfragen nicht unbedingt ein Hindernis darstellen. Es ist wichtig, entsprechend zu planen, indem man den Supportaufwand schätzt und die Ressourcen entsprechend zuweist. Die Vorteile der Veröffentlichung von wissenschaftlicher FOSS , wie z. B. die erhöhte Transparenz, Reproduzierbarkeit und Zusammenarbeit, können jedoch den potenziell erforderlichen Supportaufwand überwiegen.“ Dabei sieht sie die Finanzierung im wissenschaftlichen Bereich allerdings oft als ein Problem. „Die Entwicklung und Veröffentlichung von wissenschaftlicher Open-Source-Software wird nicht immer angemessen finanziert. In vielen Fällen wird die Entwicklung von Forscher*innen vorangetrieben, die ihre Arbeit mit Leidenschaft betreiben und bereit sind, ihre Zeit und ihre Ressourcen dem Projekt zu widmen.“
Auch Dr. Kugler sieht das Problem der mangelnden Finanzierung: „Leider sind Zeit und Gelder sehr begrenzt, was dazu führt, dass oft nur das ‚Nötigste‘ gemacht werden kann, wie beispielsweise Code produziert, um eine spezielle Frage zu beantworten – ohne Dokumentation, Daten, Hilfe oder Support.“
„Die Entwicklung und Veröffentlichung von wissenschaftlicher Open-Source-Software wird nicht immer angemessen finanziert.“
Stefanie Lück
Es gibt allerdings auch Strukturen innerhalb der Forschungslandschaft, die Open-Source-Software gezielt voranbringen. Das Journal of Open Source Sofware ermöglicht es Wissenschaftler*innen, ihren Code nicht nur unter einer freien Lizenz zu veröffentlichen, sondern diesen auch mit einer zitierfähigen Publikation zu verknüpfen. Und das CERN in Genf hat mit dem Open-Access-Repositorium Zenodo eine Datenbank gebaut, in der Open-Source-Software mit einem Digital Object Identifier (DOI) verknüpft wird. Das ermöglicht es anderen Wissenschaftler*innen, Code zu referenzieren und die Arbeit anderer korrekt zu zitieren – und Zitierungen haben eine zentrale Bedeutung in der wissenschaftlichen Karriere.
Während die Finanzierung von Open-Source-Software aus den üblichen akademischen Fördertöpfen schwierig sein kann – auch wenn beispielsweise Einrichtungen wie die Bundesanstalt für Materialforschung und -prüfung immer wieder ihre Bedeutung betonen – gibt es auch andere Finanzierungsoptionen. Für Wissenschaftler*innen können beispielsweise auch Förderprogramme wie der Prototype Fund eine Möglichkeit zur Finanzierung ihrer Entwicklungsarbeit sein. Oft sind die Werkzeuge, die Forschende für ihre Arbeit entwickeln auch für andere Menschen in der Gesellschaft hilfreich und wertvoll. Auch wissenschaftlicher Code unter freien Lizenzen ist Software fürs Gemeinwohl.
Der Prototype Fund fördert gemeinwohlorientierte Software-Prototypen mit bis zu 47 500 € für 6 Monate. Außerdem bietet das Förderprogramm Coachings zu unterschiedlichen Themen und viele Möglichkeiten zur Vernetzung mit anderen Software-Entwickler*innen. Die nächste Bewerbungsphase beginnt am 1. August 2023. Alle Infos dazu findet ihr auf prototypefund.de/bewerbung.