Project status: In Arbeit

Remove NA

Wir machen Queere Geschichte im digitalen Raum zugänglich.

Katharina Brunner
#Round11  #Diversität/Inklusion  #KI/ML 

Welche gesellschaftliche Herausforderung adressiert euer Prototyp?

Das Forum ‘Queeres Archiv München’ ist ein Community-Archiv, in dem Nachlässe, Aktenordner, Bücher, Zeitschriften und andere Objekte über Queere Geschichte niederschwellig einzusehen sind – quasi Open Source im Analogen. Im digitalen Raum jedoch fehlt eine derart strukturierte und leicht zugängliche Aufarbeitung Queerer Geschichte.

Die englische Abkürzung ‘NA’ steht für ‘not available’ und wird verwendet, wenn Informationen fehlen. Daten zur Geschichte von nicht-heterosexuellen Menschen sind häufig NA und das, was die nigerianische Künstlerin Mimi Onuoha als ‘missing data’ bezeichnet: “Missing impliziert sowohl einen Mangel als auch ein Sollen: etwas fehlt, sollte aber existieren”.

Basierend auf diesem Verständnis überführt ‘Remove NA’ das analoge Archiv des Forums ‘Queeres Archiv München’ in ein digitales Nachleben. Die treibende Vision dabei: LGBTIQ*-Geschichte als offene, verlinkte Daten.

Wie geht ihr das Problem an?

Der Fokus von ‘Remove NA’ liegt auf Datenverknüpfung, Extraktion von Entitäten und Konstruktion eines Knowledge Graphs in R und Python. Um mit maschineller Hilfe fehlende Daten aufzuspüren, braucht es ein Positiv (einen Knowledge Graph zur LGBTIQ*-Geschichte), der im Abgleich mit Linked-Open-Data wie der Gemeinsamen Normdatei (GND) oder WikiData das Negativ (die Leerstellen) herausfindet.

Als erstes werden deshalb heterogene Daten, die im besten Fall als Citavi-Dumps, im schlechtesten als Fließtexte vorliegen, im Linked-Data-Standard RDF gespeichert. Das Bereinigen und Transformieren der Daten benötigt multiple Methoden; von einfachen Joins, Scrapern und Text-Mining bis zu komplexeren NLP-Anwendungen.

Diese extrahierten Daten werden anschließend mit GND sowie WikiData mit Record Linkage abgeglichen. Dadurch kann einerseits der interne Knowledge Graph von ‘Remove NA’ durch passende Entitäten und Verbindungen der externen Daten angereichert werden. Unter der Annahme, dass LGBTIQ*-Themen in GND und WikiData unterrepräsentiert sind, können durch einen Abgleich mit Graph-Data-Science Lücken sichtbar oder im besten Fall aufgefüllt werden.

An wen richtet sich euer Tool?

‘Remove NA’ richtet sich an Angehörige der queeren Communities, die durch den Knowledge Graph historische Zusammenhänge leichter entdecken können und möglicherweise auf bisher unbekannte Informationen stoßen, sowie Forschende und interessierte Laien, die somit ihr Wissen über queeres Leben in einer Gesellschaft vertiefen können. Und nicht zuletzt können die verlinkten, offenen Daten in das System offener digitaler Informationen eingewebt werden, um die Vergangenheit für die Zukunft zu erhalten.