Projektstatus: Im Einsatz

VCAT: Visual Collections and Training Data

Wir bieten ein Computervisions-Tool für den humanitären Einsatz.

Adam Harvey

VFRAME Toolkit Website Twitter GitHub Vimeo

#Runde5 #KI/ML #Solidarität

Welches Problem willst du mit deinem Projekt lösen?

Computervision-Tools basieren oft auf der Verfügbarkeit großer Datensätze zum Trainieren und Auswerten. Die meisten öffentlich zugänglichen Datensätze sind jedoch in ihrem Umfang sehr eingeschränkt und für bestimmte Anwendungen wie Open-Source-Recherche im Bereich Menschenrechte nicht einsetzbar. So enthält Open Images, das größte öffentlich verfügbare visuelle Objekterkennungs-Datenset 600 Objektkategorien, besteht aber hauptsächlich aus Objektsamples aus verbraucherorientierten, westlichen Social-Media-Posts: Computertastaturen, Popcorn und Segways.

VCAT zielt darauf ab, dieses Problem durch die Entwicklung neuer Tools zur effizienten Erstellung benutzerdefinierter Bilderdatensätze für maschinelles Lernen anzugehen.
Die Komponente ist eine Erweiterung von VRAME und umfasst ein System zum Erstellen von Bilddatensätzen, die zum Trainieren von ML-Modellen genutzt werden und speziell auf die Bedürfnisse von MenschenrechtsforscherInnen ausgerichtet sind.
Das Projekt kombiniert ein bestehendes Toolkit mit einer groß angelegten Suchplattform, einem kollaborativen webbasierten Annotationswerkzeug und 3D-modellierten synthetischen Datensätzen, um Fortschritte auf dem Gebiet von Maschinensehen und im maschinellem Lernen direkt auf Menschenrechtsuntersuchungen anwendbar zu machen.

Das VFRAME/VCAT-Team wird u.a. mit dem Projekt Syrian Archive zusammenarbeiten, um sicherzustellen, dass die Tools nutzerfreundlich entwickelt werden. VCAT entwickelt einen größeren synthetischen quelloffenen Datensatz mit Hunderten von 3D- modellierten Objekten, der für das Beforschen von diverseb Konfliktzonen einschließlich des Jemens und der Ukraine geeignet ist. Die 3D-Modelle und generierten synthetischen Datensätze werden zugänglich gemacht und sollen die bestehende Community aus Forschern und Aktivisten dazu einladen, sich noch stärker zu vernetzen.

Wie löst dein Projekt das Problem?

VCAT wird in drei Teilen implementiert: Verbesserungen der bestehenden webbasierten Annotationsanwendung, Erforschung neuer Methoden zur Erstellung von synthetischen Datensätzen und Anwendung dieser Erkenntnisse zur Erstellung neuer Modelle für die Erkennung und Klassifizierung von Gegenständen.

Verbesserungen an der Web-App umfassen Polygon-Annotationswerkzeuge, Datenvisualisierungen, textbasierte Metadatensuche, Metadaten-Clustering und Verbesserungen der visuellen Suche, um übergroße Datensätze aufnehmen zu können. Bei der synthetischen Datensatzgenerierung wird die 3D-Modellierung verwendet, um neue Methoden zur Erstellung von Bilddatensätzen zu untersuchen, wenn zu wenige vorherige Trainingsbeispiele verfügbar sind. Für das Syrian Archive und andere Forschungsgruppen wird VCAT / VFRAME so Objekterkennungsmodelle zur Lokalisierung einer erweiterten Palette illegaler Munition entwickeln und verfügbar machen. Wenn Trainingsdaten zu spärlich sind, um einen exakten Klassifikator zu trainieren, nutzt und untersucht VCAT das Potenzial von mithilfe von 3D-Modellierungssoftware erstellten synthetischen Hilfsdatensätzen.

In dieser Phase werden Objekte wie Streumunition dreidimensional modelliert und nachbearbeitet, um Zielbilder zu simulieren. Die dritte Phase wird die Web-App und die Tools zur synthetischen Datengenerierung nutzen, um spezifische Bilddatensätze für den maschinellen Lernprozess zu Forschungszwecken, zu erstellen. Technisch wird die Web-App mit einem Django-Backend und React-Frontend aufgebaut. Der Bildverarbeitungsworkflow verwendet OpenCV, Darknet, TensorFlow und PyTorch.

An wen richtet sich dein Tool?

Der primäre Nutzer von VCAT ist das Team des Syrian Archive. Während der Entwicklung wird VCAT aber auch mit anderen Forschergruppen zusammenarbeiten (einschließlich Forensic Architecture), um die Nutzungspotenziale synthetisch generierter Datensätze zu erforschen und mit StudentInnen kollaborative Annotationsmethoden zu trainieren.

VFRAME Toolkit Website Twitter GitHub Vimeo

PROJEKTÜBERSICHT