Die KI-Reihe

KI III: Trainingsdaten und Dataworker

06.08.2024

#KI #Informatik #Gesellschaft

Das Training eines KI-Systems hängt maßgeblich von der Qualität der Trainingsdaten ab. Wo kommen diese eigentlich her? Wir erzeugen selbst Trainingsdaten zur Smiley-Erkennung und schauen uns auch den gesellschaftlichen Aspekt an.

Das Frauenhofer Institut schreibt in einer Veröffentlichung:

Der Rohstoff der Digitalisierung und der Künstlichen Intelligenz (KI) sind Daten.

Für KI sind das insbesondere Daten, mit denen die Systeme trainiert werden, das zu tun, was man von ihnen erwartet, die sogenannten Trainingsdaten. Das bedeutet aber auch: Schlechte Trainingsdaten führen zu schlechten Ergebnisse. Dazu gibt es diese Anekdote:

Ein Husky wurde als Wolf erkannt.
© Ribeiro et al. 2016

Das KI-System, das auf Fotos von Hunden und Wölfen trainiert wurde, versagte bei der Identifizierung eines Husky-Fotos. Die Analyse ergab, dass das System nicht die Tiere selbst, sondern die Umgebung für die Entscheidungsfindung herangezogen hatte, da es nur mit Wolfsbildern trainiert worden war, auf denen Schnee zu sehen war. Daher führte die fehlerhafte Annahme, dass Schnee gleich Wolf und kein Schnee gleich Hund ist, zu einer falschen Identifizierung. »“Why Should I Trust You?” Explaining the Predictions of Any Classifier«, Ribeiro et al. 2016,
https://arxiv.org/pdf/1602.04938

Diese Anekdote ist vielleicht ganz niedlich. Aber was, wenn dunkelhäutige Menschen von einer KI als Gorillas kategorisiert werden? So geschenen im Jahre 2015 bei der automatischen Verschlagwortung in der Google Foto App. Dann hört der Spaß auf…

Woher kommen Trainingsdaten?

Trainingsdaten für künstliche Intelligenz können aus unterschiedlichen Quellen stammen:

Öffentlich zugängliche Daten: Dazu gehören Daten aus dem Internet, wie Webseiten, soziale Medien, Foren und wissenschaftliche Publikationen.
Proprietäre Daten: Unternehmen sammeln oft eigene Daten durch ihre Produkte und Dienstleistungen, die sie dann zur Schulung ihrer KI-Modelle verwenden.
Öffentliche Datensätze: Es gibt viele öffentlich verfügbare Datensätze, die speziell für die Schulung von KI-Modellen erstellt wurden, wie z.B. ImageNet für Bilderkennung oder das Common Crawl Dataset für Text.
Simulierte Daten: In einigen Fällen werden Daten durch Simulationen erzeugt, um spezifische Szenarien zu modellieren, die in der realen Welt schwer zu erfassen sind.
Crowdsourcing: Plattformen wie Amazon Mechanical Turk ermöglichen es, Daten durch die Beiträge vieler Menschen zu sammeln.

Es ist ein umstrittenes Thema, welche Daten für das Trainig einer KI verwendet werden dürfen. Problematisch sind dabei Datenschutz und das Urheberrecht. Dazu wurde und wird auch vor Gericht gestritten. Aber das ist ein Thema für sich.

Crowdsourcing & Clickworker

Sogenannte Clickworker oder Data-Worker beschreiben Bilder, beurteilen die Verständlichkeit von Texten oder klassifizieren zum Beispiel das Verhalten von Menschen in einem Video, um Datensätze für KI-Firmen zu generieren. Dabei verdienen sie pro Aufgabe ein paar Cent.

Manchen Firmen, die Clickworker anheuern, wird vorgeworfen, es auszunutzen, dass Menschen in bestimmten Teilen der Erde lieber so einen Job für sehr sehr wenig Geld machen, als nichts zu Essen zu haben. Außerdem sind wohl einige der Data-Worker psychisch heftigen Dingen ausgesetzt, wenn sie z.B. Gewalt oder andere unangenehme Sachen auf Bildern identifizieren müssen.

Andere sagen: Es ist doch gut wenn die Menschen dort eine bezahlte Arbeit haben – besser als gar nichts. Und bei manchen Firmen bekommen die Arbeiter wohl auch psychologische Unterstützung bei solchen Aufgaben.

Ein untrainiertes System liefert unbrauchbare Antworten.
© Stefan Beyer | smileki

Trainingsdaten für eine Smiley-Erkennung

Mit der SmileKI Smiley-Erkennung kann man einfache Trainingsdaten selbst erzeugen, um später damit eine Smiley-Erkennung zu trainieren. Das System soll traurige, föhliche und neutrale Smileys anhand von kleinen Pixelbildern erkennen. Allerdings kann es am Anfang noch gar nichts: Die Ergebnisse sind zufällig und unbrauchbar. Das sieht man auch, wenn man einmal das Testing durchlaufen lässt: Vielleicht ist zufällig mal etwas richtig, aber das kann man ja nicht »intelligent« nennen.

Ähnlich wie bei der Stau-Erkennung oder den bissigen Affen, brauchen wir Bilder, deren zugehörige Kategorie bekannt ist, sog. gelabelte Daten. Mit einem Teil dieser Bilder wird das System trainiert, mit einem anderen dann die Güte geprüft.

Trainings-Datensatz erstellen.
© Stefan Beyer | smileki

Man zeichnet zum Beispiel das Pixelbild eines glücklichen Smileys und gibt dazu das passende Label (»happy«) an. Dann wird der Datensatz (bestehend aus Bild und Label) zu den Trainingsdaten hinzugefügt. Damit das System am Ende alles erkennt, was es erkennen soll, müssen von jeder Kategorie einige Beispiele vorhanden sein. Auch für das Testing müssen Beispiele aufgezeichnet werden. Gespeichert wird das Ganze so, dass der Computer später damit rechnen kann.

Wie die Trainingsdaten gespeichert werden

Es müssen hier sowohl das Bild, als auch die erwartete Emotion (Label) in eine Form gebracht werden, mit der gerechnet werden kann: Zahlen.

{ "input": [ 1,1,1,1,1,1,1,1, 1,1,0,1,1,0,1,1, 1,1,1,1,1,1,1,1, 1,1,1,1,1,1,1,1, 1,0,1,1,1,1,0,1, 1,0,1,1,1,1,0,1, 1,1,0,0,0,0,1,1, 1,1,1,1,1,1,1,1 ], "output" [ 1, 0, 0 ] }

Als Eingabe oder »input« sehen wir eine lange Folge von 1 und 0, in der jede Zahl für ein Pixel des Bildes steht. Welche Ausgabe wir zu dem Bild erwarten, geben wir mit »output« an: Eine Liste von dreimal 0 oder 1. Die erste Stelle steht für »happy«, die zweite für »sad« und die dritte für »neutral«. Da in unserem Fall immer nur eines davon zutrifft, ist immer nur an einer der drei Stellen eine 1. Zum Beispiel steht [0,1,0] für »traurig«.

Im nächsten Teil geht es darum, ein neuronales Netz zu konfigurieren und mit den erstellten Daten zu trainieren.

grasp:it

Stefan Beyer - Web-Entwickler und Lehrer