Die KI-Reihe
KI III: Trainingsdaten und Dataworker
Das Training eines KI-Systems hängt maßgeblich von der Qualität der Trainingsdaten ab. Wo kommen diese eigentlich her? Wir erzeugen selbst Trainingsdaten zur Smiley-Erkennung und schauen uns auch den gesellschaftlichen Aspekt an.
Das Frauenhofer Institut schreibt in einer Veröffentlichung:
Der Rohstoff der Digitalisierung und der Künstlichen Intelligenz (KI) sind Daten.
Für KI sind das insbesondere Daten, mit denen die Systeme trainiert werden, das zu tun, was man von ihnen erwartet, die sogenannten Trainingsdaten. Das bedeutet aber auch: Schlechte Trainingsdaten führen zu schlechten Ergebnisse. Dazu gibt es diese Anekdote:
Diese Anekdote ist vielleicht ganz niedlich. Aber was, wenn dunkelhäutige Menschen von einer KI als Gorillas kategorisiert werden? So geschenen im Jahre 2015 bei der automatischen Verschlagwortung in der Google Foto App. Dann hört der Spaß auf…
Woher kommen Trainingsdaten?
Trainingsdaten für künstliche Intelligenz können aus unterschiedlichen Quellen stammen:
- Öffentlich zugängliche Daten: Dazu gehören Daten aus dem Internet, wie Webseiten, soziale Medien, Foren und wissenschaftliche Publikationen.
- Proprietäre Daten: Unternehmen sammeln oft eigene Daten durch ihre Produkte und Dienstleistungen, die sie dann zur Schulung ihrer KI-Modelle verwenden.
- Öffentliche Datensätze: Es gibt viele öffentlich verfügbare Datensätze, die speziell für die Schulung von KI-Modellen erstellt wurden, wie z.B. ImageNet für Bilderkennung oder das Common Crawl Dataset für Text.
- Simulierte Daten: In einigen Fällen werden Daten durch Simulationen erzeugt, um spezifische Szenarien zu modellieren, die in der realen Welt schwer zu erfassen sind.
- Crowdsourcing: Plattformen wie Amazon Mechanical Turk ermöglichen es, Daten durch die Beiträge vieler Menschen zu sammeln.
Es ist ein umstrittenes Thema, welche Daten für das Trainig einer KI verwendet werden dürfen. Problematisch sind dabei Datenschutz und das Urheberrecht. Dazu wurde und wird auch vor Gericht gestritten. Aber das ist ein Thema für sich.
Crowdsourcing & Clickworker
Sogenannte Clickworker oder Data-Worker beschreiben Bilder, beurteilen die Verständlichkeit von Texten oder klassifizieren zum Beispiel das Verhalten von Menschen in einem Video, um Datensätze für KI-Firmen zu generieren. Dabei verdienen sie pro Aufgabe ein paar Cent.
Manchen Firmen, die Clickworker anheuern, wird vorgeworfen, es auszunutzen, dass Menschen in bestimmten Teilen der Erde lieber so einen Job für sehr sehr wenig Geld machen, als nichts zu Essen zu haben. Außerdem sind wohl einige der Data-Worker psychisch heftigen Dingen ausgesetzt, wenn sie z.B. Gewalt oder andere unangenehme Sachen auf Bildern identifizieren müssen.
Andere sagen: Es ist doch gut wenn die Menschen dort eine bezahlte Arbeit haben – besser als gar nichts. Und bei manchen Firmen bekommen die Arbeiter wohl auch psychologische Unterstützung bei solchen Aufgaben.
Trainingsdaten für eine Smiley-Erkennung
Mit der SmileKI Smiley-Erkennung kann man einfache Trainingsdaten selbst erzeugen, um später damit eine Smiley-Erkennung zu trainieren. Das System soll traurige, föhliche und neutrale Smileys anhand von kleinen Pixelbildern erkennen. Allerdings kann es am Anfang noch gar nichts: Die Ergebnisse sind zufällig und unbrauchbar. Das sieht man auch, wenn man einmal das Testing durchlaufen lässt: Vielleicht ist zufällig mal etwas richtig, aber das kann man ja nicht »intelligent« nennen.
Ähnlich wie bei der Stau-Erkennung oder den bissigen Affen, brauchen wir Bilder, deren zugehörige Kategorie bekannt ist, sog. gelabelte Daten. Mit einem Teil dieser Bilder wird das System trainiert, mit einem anderen dann die Güte geprüft.
Man zeichnet zum Beispiel das Pixelbild eines glücklichen Smileys und gibt dazu das passende Label (»happy«) an. Dann wird der Datensatz (bestehend aus Bild und Label) zu den Trainingsdaten hinzugefügt. Damit das System am Ende alles erkennt, was es erkennen soll, müssen von jeder Kategorie einige Beispiele vorhanden sein. Auch für das Testing müssen Beispiele aufgezeichnet werden. Gespeichert wird das Ganze so, dass der Computer später damit rechnen kann.
Im nächsten Teil geht es darum, ein neuronales Netz zu konfigurieren und mit den erstellten Daten zu trainieren.