DALL-E mini: Bildgenerator zeigt schwerwiegendes Problem auf
Gollum kocht Tomatensauce und Elon Musk spielt Trompete im Jazzclub: Die surrealen Bilder, die die KI DALL-E mini aus einfachen Sätzen generiert, gehen gerade viral. Doch neben allem Spaß zeigen die Grenzen der Software ein gesellschaftliches Grundproblem auf.
Ein Dackel erfindet (endlich) das Perpetuum Mobile, Elon Musk spielt Trompete, eine Wurst eröffnet einen Supermarkt: Egal, wie absurd die Idee – der KI-Grafikgenerator DALL-E mini macht ein Bild daraus.
In den sozialen Medien gehen die kachelartigen Bildchen gerade viral, jeder will DALL-E mini ausprobieren. Was steckt dahinter? Wie funktioniert das Ganze? Und: Was soll das eigentlich? Klar wird schnell: Die Software ist nicht nur ein Beispiel für die Möglichkeiten von Maschinellem Lernen und bereitet eine Menge (Dada-)Spaß. Sondern sie zeigt ein gesellschaftliches Problem und Grenzen von Künstlicher Intelligenz auf, worauf die Programmierer sogar selbst hinweisen. Doch dazu später mehr.
KI im Recruiting: Werden Personaler überflüssig?
Wie funktioniert DALL-E mini?
Das Prinzip: Nutzer geben auf der kostenlosen Plattform einen beliebigen Text in ein Suchfeld ein. DALL-E mini interpretiert den Satz und erstellt dann nach ein bisschen Rechnerei (das kann schon mal bis zu eine Minute dauern) neun dazu mehr oder minder passende Grafiken. Dazu greift das Programm auf sämtliche verfügbaren Bilder im Internet zurück und setzt daraus ein eigenes Bild zusammen. Um die KI zu trainieren, wurde sie mit Millionen von Bildern aus dem Netz und deren jeweiligen Beschriftungen gefüttert. So lernt das Programm nach und nach, wie Bilder und Fragmente davon sprachlich zu deuten sind beziehungsweise wie welches Wort in welches Bild übertragen werden kann.
Das gelingt manchmal verblüffend amüsant – und manchmal überhaupt nicht. Klar ist: Je mehr Bilddateien es zu einem Begriff oder einer Phrase gibt, desto interessanter und passgenauer wird Ergebnis. Was auffällt: Mit menschlichen Gesichtern scheint die KI noch nicht so gut klarzukommen. Sie erscheinen häufig verzerrt, bisweilen bis ins Albtraumhafte grotesk. Wobei dieses Phänomen schon wieder einen gewissen „künstlerischen“ Reiz haben kann.
DALL-E mini: Too much Traffic – was kann ich tun?
Der Bildgenerator basiert auf der Software GPT-3 von OpenAI und wurde schon im Jahr 2021 erstellt. Doch jetzt erst ist DALL-E mini einer breiten Masse bekannt – einer sehr breiten wohl gemerkt. Nachdem Tausende Bilder von Nutzern viral gegangen sind, wollten immer mehr Menschen das Tool ausprobieren, so dass die Server zeitweise an den Rand der Belastbarkeit gerieten. Manchmal spuckt das Programm die Meldung „Too much traffic“ aus. Dann hilft nur eins: Warten und noch einmal probieren.
Wie Geisteswissenschaften die KI-Forschung nach vorne bringen können
Woher kommt der Name?
Der Name ist eine Hommage an den surrealistischen Künstler Salvador Dalí – in der Tat wirken die Werke oft seltsam traumartig.
Ist DALL-E mini kostenlos?
Ja, DALL-E mini ist für jeden kostenlos nutzbar. Das Programm ist eine Art abgespeckte Version der Software DALL-E 2 von OpenAI, das unter anderem auch fotorealistische Bilder aus Sätzen erzeugen kann – allerdings ist der Zugang zur Software nur möglich, wenn man sich auf einer Warteliste einträgt: Bislang dürfen nur einige wenige Forscher und Künstler DALL-E 2 testen.
Bias und Vorurteile: Die Moral der KI ist nur so gut wie die der Nutzer, die sie füttern
Ein interessanter Aspekt: Auf der Plattform findet sich ein deutlicher Hinweis zu den Grenzen der Software. Darin heißt es: „Obwohl die Fähigkeiten von Bildgenerierungsmodellen beeindruckend sind, können sie auch gesellschaftliche Vorurteile verstärken oder verschärfen. Während das Ausmaß und die Art der Verzerrungen von DALL-E mini noch vollständig dokumentiert werden müssen, kann es angesichts der Tatsache, dass das Modell mit ungefilterten Daten aus dem Internet trainiert wurde, Bilder erzeugen, die Stereotype gegen Minderheitengruppen enthalten.“ Das heißt: Wenn Bilder und ihre Beschriftungen im Netz bestimmte Vorurteile bedienen oder bestimmten Bias unterworfen sind, dann übernimmt die KI diese automatisch mit – und lässt sie wiederum in seine Bilder mit einfließen. Damit zeigt DALL-E mini ein grundsätzliches Problem von Künstlicher Intelligenz auf: Sie ist nicht von Natur aus neutral oder gar gut (oder besser als menschliche Instanzen).
Hören Sie zum Thema KI auch diese Ausgabe unseres Podcasts „Prototyp“:
Hier wird Ihnen ein externer Inhalt von Podigee angezeigt.
Mit der Nutzung des Inhalts stimmen Sie der Datenschutzerklärung
von youtube.com zu.
Wenn Sie mit bestimmten Bias gefüttert wird, wird es schwierig, diese wieder abzutrainieren. Wer „engineer“ in das Suchfeld eingibt, erhält mit einer hohen Wahrscheinlichkeit nur Bilder von Helm tragenden Männern – keine Frauen. Ein Phänomen, das sich insofern mit der Wirklichkeit deckt, als Frauen in den meisten MINT-Berufen nach wie vor stark unterrepräsentiert sind. Was wiederum auch daran liegen dürfte, dass der Beruf im medialen und gesellschaftlichen Denken immer noch als eher männlich gilt. Konsequenterweise produziert DALL-e mini beim Stichwort „nurse“ auch ausschließlich Bilder von weiblichen Pflegekräften.
Einerseits werden so zu überholende Denkmuster deutlich – aber eben auch die Grenzen von KI. Wird eine vorurteilsbehaftete Maschine zum Beispiel im Recruiting eingesetzt, in der Verwaltung oder gar in der Justiz, kann das fatale Folgen haben. „Wenn es um die Eingangsdaten geht, also dem Material, mit dem eine KI lernt, macht es Sinn, das mindestens arbeitsteilig anzugehen. Die Daten sind ja der Ausgangspunkt für solche Probleme. Ein Briefing für Programmierer und Programmierinnen mit welchen Daten sie es hier zu tun haben und inwiefern sie ihre eigene Rolle reflektieren sollten, ist wichtig. Die Komplexität bei der Modellierung von KI-Systemen kann fachübergreifend auch besser abgebildet werden“, sagt Christoph Bieber. Er ist seit Oktober 2021 Forschungsprofessor Digitale Demokratische Innovationen am Center for Advanced Internet Studies in Bochum.
Alternative: Stable Diffusion – das Ende der Stockfotos
Die Zahl praktischer Anwendungszwecke für die Allgemeinheit hält sich bei den Bildgeneratoren in Grenzen – sie sind eher Experiment als Werkzeug. Weil sie aber offenbar sehr beleibt sind, strömen allmählich weitere Modelle ins Netz. Aktuell trendet das Programm Stable Diffusion. Nach dem Open-Source-Prinzip steht das Bild-zu-Text-Tool der Allgemeinheit frei zur Verfügung.
Nutzer melden sich über die Seite beta.dreamstudio.ai an, und haben dann ein Kontigent von etwa 150 kostenlosen Bildern, die sie erstellen lassen können, zur Verfügung. Die Bilder, die die KI ausspuckt, sind weniger surrealistisch angehaucht, wirken eher realistisch. Womöglich könnten sich zum Beispiel Grafiker oder Mediendesigner mithilfe des Programms irgendwann ihre ganz eigene Bilddatenbank erstellen und sind nicht mehr auf Stockfotos angewiesen. Noch wirken die Bilder dafür allerdings zu künstlich.
Das Besondere: Das Modell lässt sich auch lokal nutzen, dazu ist eine Nvidia-Grafikkarte mit mindestens 4 Gigabyte VRAM Speicher vonnöten, wobei gilt: Je höher die Auflösung des Bildes sein soll, desto höhere VRAM-Werte werden gebraucht.
Data Scientist: Was macht der professionelle Datenauswerter?
Ein Beitrag von: