Open Data für alle – Warum und Wie
Was sind eigentlich offene Daten? Wie findet, nutzt oder pflegt man diese – und wie kann man seine gesammelten Daten für andere freigeben? All diese Fragen beantwortet Lisa Stubert von der Open Data Informationsstelle Berlin für uns. Sie arbeitet bei der Technologiestiftung Berlin mit offenen Daten und erklärt uns die Basics.
Was genau heißt eigentlich Open Data?
Open Data, also zu Deutsch “offene Daten”, bedeutet im Prinzip, dass man Daten frei für jede*n zugänglich macht. Jede*r soll sie benutzen können.
Man muss meistens den Menschen erst erklären, was Daten eigentlich sind. Das weiß nicht jede*r und das ist teilweise auch ein bisschen abstrakt, wenn man selber nie damit gearbeitet hat. Es gibt ja eine Vielzahl an offenen Informationen. Wenn ich zum Beispiel an eine Suchmaschine meiner Wahl gehe und da die Einwohnerzahl von Berlin suche, komme ich wahrscheinlich relativ schnell auf Wikipedia, kann mich dort durch den Text scrollen und finde die Einwohnerzahl von Berlin. Das ist natürlich eine offene Information und das ist ganz super, dass es das gibt – aber das sind noch keine offenen Daten.
Offene Daten müssen zum Beispiel immer in einem maschinenlesbaren Format vorliegen. Das heißt, nicht nur wir Menschen können sie interpretieren, indem wir zum Beispiel einem Kontext die Information entnehmen, die wir haben wollen. Es handelt sich stattdessen um einen Datensatz, den wir maschinell einlesen können, zum Beispiel mit einem Programmcode, um dann die Information herauszuziehen und weiter damit zu arbeiten. Das ist meistens an bestimmte Formate wie csv oder Excel gebunden.
Ein anderes wichtiges Kriterium ist, dass die Daten wirklich frei sind – im Sinne einer freien Lizenz. Die*derjenige, die*der die Daten veröffentlicht, muss eine Lizenz vorlegen und wenn andere diese Daten dann verwenden möchten, dürfen sie das unter bestimmten Bedingungen tun. Für offene Daten ist es ganz wichtig, dass fast keine Bedingungen auf der Lizenz liegen. Für Open Data ist eine Zero-Lizenz die beste: Jede*r kann die Daten bedingungslos verwenden. Es gibt aber auch andere Modelle, zum Beispiel, wenn eine Verwaltung Daten veröffentlicht, jemand diese Daten nutzt und die Verwaltung dann als Quelle angegeben werden muss. Es gibt auch Lizenzen, die noch stärkere Restriktionen haben – zum Beispiel, dass die Daten nicht für kommerzielle Zwecke genutzt werden dürfen oder dass die Urheber*innen über jede Verwendung informiert werden müssen.
Wer sind denn – neben dem CityLAB in Berlin – relevante Akteur*innen im Bereich Open Data?
Für uns sind die wichtigsten Akteur*innen die Berliner Verwaltungen. Ich arbeite bei der Technologiestiftung für das Projekt “Open Data Informationsstelle” – wir sind eine Art externes Unterstützungsangebot speziell für die Verwaltungen, teilweise auch darüber hinaus. Wir arbeiten auch ein bisschen mit Wirtschaftsakteur*innen in Berlin, aber hauptsächlich mit der Verwaltung. Gemeinsam arbeiten wir daran, mehr offene Daten zur Verfügung zu stellen und evaluieren die Daten zusammen: Stimmt die Datenqualität, sind sie wirklich maschinenlesbar, kann man die Daten noch anreichern und wie sind die Prozesse der Veröffentlichung? Am Ende ist niemandem damit geholfen, wenn ein*e Fachmitarbeiter*in im Amt XY einmal einen Datensatz ins Open-Data-Portal stellt, der dann für die nächsten fünf Jahre da liegt, aber nach einem Jahr schon veraltet ist. Es braucht immer auch gute Prozesse um zu gewährleisten, dass Daten aktuell bleiben und weiter angereichert werden. Idealerweise ist Datenveröffentlichung auch kein manueller Prozess, sondern Daten werden automatisiert aus der Verwaltungssoftware in das Open-Data-Portal geladen. Das ist der Idealzustand, den wir gerade anstreben.
Wirtschaftsakteur*innen können natürlich Open Data zum einen bereitstellen, zum anderen auch nutzen. Wir haben ein Interesse daran, dass insbesondere landeseigene Unternehmen mehr Daten zurückgeben und bereitstellen. Bei der BVG kann man sich das am leichtesten vorstellen: Dort gibt es ganz viele Daten zu Haltestellen und Fahrplänen – und diese sind potenziell auch für andere interessant.
Ansonsten ist es natürlich oft die Zivilgesellschaft, die sich am Ende coole Projekte einfallen lässt und die Daten für sich nutzt. Und die Wissenschaft ist sowohl als Konsument als auch als Produzent von Daten nicht zu unterschätzen. Die kann man natürlich wiederum als Open Data veröffentlichen, damit andere etwas damit anfangen können – oder es werden Schnittstellen geschaffen, um zusammen mit anderen Daten Mehrwert zu generieren.
Rein theoretisch – das ist noch nicht so – sollte in jeder Berliner Behörde eine Person sein, die sich ganz aktiv um Open Data kümmert und das Thema in der Behörde auch voranbringt.
Was ist deine Einschätzung, welche Gruppe der von dir genannte Akteur*innen am offensten oder am wenigsten offen mit Daten umgeht? Ich hätte gedacht, dass in der Wissenschaft danach gestrebt wird, mehr Forschungsdaten besser zugänglich zu machen, aber das ist oft ein heikles Thema, oder?
Genau, bei der Wissenschaft ist Open Access sowie das Bestreben, Forschung und Studien frei zur Verfügung zu stellen schon länger ein Thema. An der Stelle schlummert wahrscheinlich noch riesiges Potential.
Ansonsten ist es schwierig zu sagen. Natürlich sind es oft Menschen aus der Zivilgesellschaft, die im Bereich Open Data sehr aktiv sind. Bei der Verwaltung ist das sehr durchmischt – wir arbeiten mit den verschiedensten Senatsverwaltungen und Bezirken zusammen und natürlich mit den verschiedensten Personen, da ist die Einstellung zu dem Thema wirklich sehr unterschiedlich.
Eine Besonderheit beim Thema Akteur*innen: Es gibt seit letztem Jahr in Berlin eine rechtliche Grundlage, in der festgeschrieben ist, dass jede Behörde eine*n Open-Data-Beauftragte*n hat. Rein theoretisch – das ist noch nicht so – sollte in jeder Behörde eine Person sein, die wirklich diese Stellung hat, sich ganz aktiv um das Thema kümmert und es in der Behörde auch voranbringt. Leider sind längst nicht alle Stellen besetzt.
Hast du eine Idee, wie der Zugang zu Open Data für Entwickler*innen und die Gesellschaft erleichtert werden kann? Du hattest eingangs bereits erwähnt, dass Open Data auch maschinenlesbar sein soll, allerdings gestaltet sich das manchmal etwas problematisch, weil nicht jede*r die Fähigkeiten besitzt, die nötig sind, um die Daten gut einzupflegen.
Ja, das ist ein wunder Punkt, ehrlich gesagt. Im Berliner Datenportal – die zentrale Website, auf der all diese Daten liegen – liegen über 3000 Datensätze, was irgendwie gut klingt. Wenn man aber mal in die Tiefe geht und sich gerade die älteren Datensätze anguckt, stellt man relativ schnell fest, dass nicht alle nutzbar sind. Größtes Problem: Manchmal funktionieren Links nicht mehr und der Datensatz ist nicht mehr auffindbar. Das ist natürlich das Schlimmste. Aber es gibt auch Daten, die zwar in einer Exceltabelle vorliegen und deswegen auf dem Papier ein maschinenlesbares Format besitzen – die aber doch ganz offensichtlich auf Menschenlesbarkeit ausgelegt sind. Das hat damit zu tun, wie die Leute mit den Daten und Tools arbeiten.
Gerade in der Verwaltung ist es so, dass Daten oft erhoben und weiterverarbeitet werden, um Berichte zu erstellen. So eine Exceltabelle sieht natürlich anders aus, wenn du sie in einen Bericht integrierst. Mit Maschinenlesbarkeit hat das oft nicht mehr viel zu tun und die Daten müssen im großen Stil umstrukturiert werden, um sie weiterzuverwenden. Das liegt daran, dass die Personen, die diese Daten verarbeiten selbst nicht so mit den Daten arbeiten, wie Entwickler*innen das tun. Deswegen ist natürlich schwer nachzuvollziehen, warum eine Tabelle auf Maschinenlesbarkeit ausgerichtet sein soll – als Mensch kann man sie dann nämlich in der Regel nicht mehr ganz so gut lesen.
Dieser Prozess bedeutet für die Verwaltung mehr Arbeit. Deswegen ist es wichtig, dass zukünftig aus der Verwaltungssoftware automatisch Open Data exportiert werden. So liegen die Daten dann automatisch in einem besseren Format vor.
Welche Beispiele gibt es für Kontexte, in denen Open Data gut und sinnvoll eingesetzt wird?
Im CityLAB prototypen wir zum Beispiel gerade mit offenen Daten und versuchen deren Nutzen zu zeigen, wenn wir eine Idee für einen offenen Datensatz haben. Ein Projekt, das hier in Berlin sehr erfolgreich ist, ist “Gieß den Kiez”, eine Webanwendung, in der auf einer Karte alle 800.000 Straßen- und Parkbäume in Berlin, verschnitten mit den aktuellen Wetterdaten, zu sehen sind. Da kann ich mir angucken: Wo stehen welche Bäume? Wie alt sind die? Wie viel Niederschlag ist in den letzten 30 Tagen gefallen – sprich, hat der Baum Wassermangel? Wäre es sinnvoll, ihn zu gießen oder sieht es eigentlich gerade ganz gut aus? Und als interessierte*r Nutzer*in kann man den Baum gießen und das Ganze in die App eintragen, sodass es für andere sichtbar wird.
In Berlin gibt es tatsächlich viele Leute, die der Trockenstress von Bäumen beschäftigt und die sind total froh über die Möglichkeit, das sichtbar zu machen und sich untereinander ein bisschen zu koordinieren. Die Anwendung ist nur möglich, weil es offene Daten zu Straßenbäumen gibt – ein riesiger, gut gepflegter Datensatz der Berliner Grünflächenämter, die diesen jährlich herausgeben. In der App finden sich auch offene Daten von Straßenbrunnen, z. B. Standorte von Pumpen und die Information, ob sie funktionieren oder nicht. Die Wetterdaten sind natürlich auch offene Daten. Wir mussten keine Daten einkaufen, sondern konnten alles frei verwenden und damit einen Mehrwert schaffen.
Ein anderes Beispiel ist die Berliner “Erfrischungskarte” von CityLAB und ODIS. Darin finden sich ganz viele Standorte von Bänken, Wasserspielplätzen, Seen oder Badestellen. Das Herzstück der Anwendung ist die Visualisierung von Schatten in Berlin auf Grundlage eines digitalen Geländemodells, mit dem berechnet werden kann, wo zu welchem Zeitpunkt Schatten ist. Zusätzlich werden mikroklimatische Gegebenheiten dargestellt, also wo es tendenziell eher kühl oder warm ist. So kann man an einem besonders heißen Sommertag auf der Karte nachsehen, welche Parkbank im Schatten ist oder ob der Lieblingsbiergarten um 16 Uhr noch in der Sonne liegt. Außerdem regt die Karte dazu an, sich Gedanken über die Klimaerwärmung zu machen und wie wir uns als Städte in Zukunft anpassen müssen, um sicherzustellen, dass man nicht den ganzen Tag schwitzend durch die Stadt läuft.
Was ich in der Beratung viel bei der Verwaltung wahrnehme, ist die Angst davor, was mit den Daten passiert.
Wie schon angesprochen gibt es unterschiedliche Lizenzen, die bestimmen, was man alles mit den Daten machen kann. Was sagst du dazu, wenn offene Daten oder auch Open Source Code kommerziell genutzt werden?
Ich glaube, das ist eher eine Frage der Einstellung: Wir in der Technologiestiftung setzen unsere Projekte als Open Source um. Unsere Überzeugung ist, dass der Mehrwert einfach größer ist, wenn wir mit Open Source arbeiten und unter komplett freier Lizenz veröffentlichen, sodass wirklich jede*r die Daten nutzen kann.
Vor einiger Zeit hatten wir im CityLAB den Fall, dass es außerhalb von Deutschland eine Crowdsourcing-Kampagne gab, bei der Geld für ein Vorhaben gesammelt wurde, das auffällig ähnlich wie eines unserer Open-Source-Projekte klang. Da ist bei uns die Diskussion entstanden, ob wir wirklich unter MIT-Lizenz veröffentlichen oder kommerzielle Zwecke ausschließen wollen. Wir haben uns dann dazu entschlossen, weiter unter MIT-Lizenz zu veröffentlichen – vielleicht nutzen sie das Geld ja, um die Idee noch besser zu machen und es entsteht eine tolle neue Anwendung, die das Geld wert ist.
Was ich in der Beratung viel bei der Verwaltung wahrnehme, ist die Angst davor, was mit den Daten passiert; zum Beispiel, wenn es um die Bereitstellung von Daten zu Standorten von Behindertenparkplätzen geht. Da hatte jemand Bedenken, dass Firmen diese Daten verwenden würden, um dort gezielt Werbung zu veröffentlichen. Da wäre ich nicht drauf gekommen. Ja, das kann theoretisch nicht ausgeschlossen werden, aber darunter leiden die Parkplatzsuchenden nicht per se.
Eine Privatadresse sollte nicht offen sein, genau wie andere personenbezogene oder sicherheitsrelevante Daten. Alles andere muss offen sein.
Als wichtige Akteur*innen hattest du unter anderem auch die Zivilgesellschaft genannt. Ist Open Data ein Feld, in das sich die Zivilgesellschaft im Sinne der Interessenvertretung gut einbringen kann?
Es kommt ein bisschen auf die Aspekte von Open Data an und welches Prinzip man verfolgt. Meiner Meinung nach wäre das Beste – und hier in Berlin wird das so gemacht – in der Rechtsordnung zu sagen, dass Daten by default offen sind. Alle Daten sind also prinzipiell offen, außer es gibt gute Gründe dagegen: Eine Privatadresse sollte zum Beispiel nicht offen sein, genau wie andere personenbezogene oder sicherheitsrelevante Daten. Alles andere muss offen sein.
Es gibt aber auch einen anderen Ansatz, der sagt, wir veröffentlichen erstmal alles, was besonders relevant ist für einen großen Teil der Zivilgesellschaft. Da kommen dann andere Akteur*innen ins Spiel, die uns sagen müssen, was relevant ist und in welchem Format sie die Daten haben wollen. So kann man gezielt ansetzen und auf diese wichtigen Themenbereiche fokussieren, denn es besteht ja ein offensichtliches Interesse. Jetzt ist Open Data natürlich auf den ersten Blick nicht für die gesamte Bevölkerung relevant. Im Endeffekt profitieren aber die meisten Leute davon. Wenn eine Firma eine coole App entwickelt, die mein Leben besser macht, dann habe ich davon profitiert. Aber die Menschen, die wirklich konkret mit den Daten arbeiten – das ist schon ein kleiner Expert*innenkreis.
Wo sind die Schnittstellen von Open Data und Open Source? Gibt es Zusammenhänge, bei denen es Sinn macht, gemeinsam Positionen zu vertreten? Was ist deine Ansicht dazu?
Ich glaube, was beide Themen im Wesentlichen verbindet, ist die kulturelle Einstellung, dass wir Transparenz und Teilhabe fördern und allen Leuten ermöglichen wollen, mitzumachen, ihre Perspektive beizutragen und sich zu informieren. Vielleicht ist es bei Open Source teilweise spezieller als bei Open Data, weil es noch mehr Expertise erfordert, Code zu schreiben oder nachzuvollziehen. Eine Datentabelle öffnen und da ein paar Zahlen raus lesen, können die meisten dann doch.
Es ist immer spannend zu sehen, welche Ideen Leute haben und wenn Daten oder Code nicht offen sind, geht vieles davon verloren. Das vereint beide Themen, würde ich sagen.
Ganz zum Schluss noch: Was ist denn dein persönlicher Zugang zu dem Thema?
Gute Frage! Ich bin persönlich davon überzeugt, dass wir ein Recht auf offene Daten haben – besonders Verwaltungsdaten, weil wir diese mit unseren Steuergeldern zahlen. Und es ist immer mehr möglich, wenn mehr Leute beitragen können, die zum Beispiel Ideen haben, auf die der eigentliche Datenhalter gar nicht kommt.
Als ich damals studiert habe, haben wir nur mit offenen Daten gearbeitet. Ich habe Geoinformatik studiert und im Bereich der Geodaten ist zum Glück schon länger die Offenmachung oder freie Verfügbarkeit von Daten etabliert. Ich erinnere mich an einen ganz tollen Kurs, wo wir Daten zu Wasserständen und Wasserqualität in Berlin genommen haben und damit dann eine coole Anwendung programmiert haben. Ich glaube das war das erste Mal, dass ich meine Lust am Programmieren entdeckt habe und dachte: Mann, ist das cool! Ich habe das dann weiter verfolgt, kann heute viel besser programmieren und bin total happy damit. Dass wir diesen Datensatz zur Verfügung hatten, hat sicherlich dazu beigetragen. Damals war mir noch gar nicht bewusst, dass das Open Data ist – ich habe mich einfach gefreut, dass er da ist und nicht darüber nachgedacht. Erst durch die Technologiestiftung ist mir das bewusst geworden, davor war das alles eher unbewusst.
Das Interview führte Patricia Leu.
Über Lisa Stubert
Lisa Stubert ist wissenschaftliche Mitarbeiterin bei der Technologiestiftung Berlin und leitet dort das Projekt ODIS (Open Data Informationsstelle). Durch ihr Studium im Bereich der Umweltwissenschaften kam sie zum ersten Mal mit der Verarbeitung großer Datenmengen und der Programmierung in Berührung. Mit ihrem Master in Geoinformation und Visualisierung legte sie ihren Fokus darauf, komplexe Zusammenhänge zwischen Daten zu finden, um Sachverhalte und Prozesse in unserer Umwelt besser verstehen, modellieren und darstellen zu können.
Seit 2020 unterstützt sie mit der ODIS die Berliner Verwaltung dabei, offene Daten über unsere lebendige Hauptstadt bereitzustellen und damit der Stadtgesellschaft mehr Transparenz und Wertschöpfung aus vorhandenem Wissen und Verwaltungshandeln zu ermöglichen. Gemeinsam mit dem CityLAB Berlin arbeitet sie außerdem an digitalen Tools und Anwendungen, die offene Daten nutzen.