Dall-E, zeichne mir ein Schaf: Künstliche Intelligenz macht jeden zum Illustrator

Ein Selbsttest mit Anleitung für alle ohne Budget – und eine Erklärung, welche Technologie hinter automatischer Bilderzeugung steckt.

Ruth Fulterer, Gioia da Silva
Drucken

Immer öfter begegnet man im Internet Bildern von Gegenständen, die so gar nicht existieren können: Fotos von Menschen, die es nie gegeben hat, Ölgemälden, die nie auf eine Leinwand gepinselt wurden, Karikaturen, die von niemandem skizziert wurden. Dahinter steckt – wie könnte es anders sein – künstliche Intelligenz (KI).

Computerprogramme wurden in den vergangenen Monaten merklich besser in der Generierung von Bildmaterial. Wir haben drei Programme für die Erzeugung von Bildern mit künstlicher Intelligenz ausprobiert und erklären hier, wie man auf sie zugreifen kann und wie die Technologie dahinter funktioniert.

Midjourney: Der düstere Brauchbare

Auf Midjourney greift man unter www.midjourney.com zu. Für die Anmeldung klickt man auf das Feld «Join the Beta». Das Log-in funktioniert nur über ein Profil auf Discord, einer Social-Media-Applikation. Wer noch kein Discord-Profil hat, muss dort eines erstellen und dann die Einladung zum Midjourney-Server annehmen. Unter dem Kanal #getting-started wird in der Discord-Gruppe beschrieben, wie man den KI-Bot bedient: Man tippt /imagine plus einen Beschrieb in einen der Chat-Kanäle mit #newbie im Namen und erhält dann vier computergenerierte Bilder, von denen man eines oder mehrere mit besserer Auflösung herunterladen kann.

Wir machen den Versuch und geben ein Bild eines Schafes in Auftrag, das eine Zeitung frisst, mit dem Befehl: «/imagine a sheep that is eating a newspaper». Offenbar machen in der Phantasie der KI die schlechten Nachrichten in den Zeitungen das Schaf einigermassen ungesund – insbesondere, was die Beine anbelangt.

Midjourney-Bildgenerator mit dem Beschrieb: «A sheep that is eating a newspaper».

Midjourney-Bildgenerator mit dem Beschrieb: «A sheep that is eating a newspaper».

Midjourney

Den Midjourney-Bildservice kann man insgesamt 25 Mal benützen, ohne zu bezahlen. Auffallend ist, dass die Bilder Comic-haft sind und etwas düster anmuten. Wer von der Weltuntergangsstimmung nicht genug kriegt, kann den Service abonnieren. Dies geschieht, wenn man /subscribe in einen beliebigen Kanal eintippt. Abos kosten zwischen 10 Dollar im Monat (mit Limite) und 600 Dollar im Jahr (unlimitiert).

Stable Diffusion: Einfach in der Bedienung, aber in der Gratisversion wenig kreativ

In den Stable-Diffusion-Bildservice kann man sich über einen Google- oder einen Discord-Account einloggen. Man öffnet dafür https://beta.dreamstudio.ai/dream im Browser und erlaubt dem Programm Zugriff auf sein Google- oder Discord-Profil.

Im schwarzen Textfeld weiter unten gibt man dann einen beliebigen Bildbeschrieb ein und klickt danach auf die Schaltfläche «Dream». Wir versuchen es mit dem Beschrieb «ein Schaf, das als Illustrator für eine Zeitung arbeitet». Als Resultat erhalten wir eine Schwarz-Weiss-Zeichnung von Schafen auf einer Wiese.

Stable-Diffusion-Bildgenerator mit dem Beschrieb: «A sheep working as an illustrator for a newspaper».

Stable-Diffusion-Bildgenerator mit dem Beschrieb: «A sheep working as an illustrator for a newspaper».

Stable Diffusion

Nach ein paar Versuchen stellen wir fest: Stable Diffusion ist zwar einfacher in der Bedienung als die anderen getesteten Programme und bietet mit 200 Gratisbildern eine hohe Limite für alle, die kostenlos mit den Programmen spielen möchten. Allerdings scheint mindestens die Gratisversion erheblich weniger kreativ zu sein, als es die Konkurrenzprodukte sind. Dabei handelt es sich jedoch eher um ein Zwischenfazit, schliesslich tüfteln Entwicklerinnen und Entwickler ständig an der Verbesserung aller Programme. Den Abo-Service gibt es zum Preis von gut 11 Franken. Damit lassen sich qualitativ bessere Bilder erzeugen.

Dall-E: Grosse Vielfalt und hohe Qualität

Dall-E ist das berühmteste Bildgenerierungsprogramm. Es wurde von der KI-Firma Open AI geschaffen– und in sein Training dürfte die grösste Zahl an Bildern eingeflossen sein. Es gibt nämlich keinen typischen Dall-E-Stil. Vielmehr kreiert das Programm sehr verschiedene Bilder, wie Twitter-Kanäle mit den besten Dall-E-Bildern und Liebhabersammlungen zeigen.

Inzwischen ist dieses Programm auch für Privatpersonen in der Schweiz frei zugänglich. Nach einer unkomplizierten Registration mit E-Mail-Adresse und Sicherheitscode am Handy kann man auf der übersichtlichen Site mit dem Experimentieren beginnen. Zum Start erhält man 50 Bild-Suchen, die jeweils 4 Resultate generieren, geschenkt und weitere 15 im Monat kostenlos. Man kann Versuche dazukaufen, für 15 Dollar gibt es 115.

Diese Versuche sind nützlich, um die Anleitungen für den Bildgenerator zu verfeinern. Damit lassen sich Stil und Stimmung des Bildes verändern, wie unser Experiment zeigt. Die Vorgabe «das letzte Schaf auf der Erde beim Zeitunglesen» auf Englisch generiert dieses Bild.

«The last sheep on earth reading a newspaper».

«The last sheep on earth reading a newspaper».

Dall-E

Fügt man hinter einem Komma an: «realistisch», dann ist das Resultat schon sehr viel beeindruckender.

«The last sheep on earth reading a newspaper, realistic».

«The last sheep on earth reading a newspaper, realistic».

Dall-E

Das Experimentieren mit Lichteinfall und Stilen zahlt sich auch in den anderen Programmen aus.

Midjourney-Resultate für «a sheep eating a newspaper, photorealistic».

Midjourney-Resultate für «a sheep eating a newspaper, photorealistic».

Zum Teil lohnt es sich ausserdem, einfach «HQ» für «high quality» zum Bildauftrag hinzuzufügen. Bei komplexeren Beschrieben wird auch klar: Den Sinn eines Text zu verstehen, ist für die Programme meist schwieriger, als ein visuell hochwertiges Bild zu erzeugen.

Stable Diffusion mit dem Beschrieb: «A sheep at work as an illustrator for a newspaper HQ».

Stable Diffusion mit dem Beschrieb: «A sheep at work as an illustrator for a newspaper HQ».

Das gleiche Programm mit dem Beschrieb: «A sheep working as an illustrator for a newspaper HQ».

Das gleiche Programm mit dem Beschrieb: «A sheep working as an illustrator for a newspaper HQ».

Wer experimentiert und eigene kreative Ideen einspeist, erstellt so gemeinsam mit der KI neues Bildmaterial. Welchen Anteil sie haben, welchen die KI und welchen die Künstler, von deren Bildern die KI gelernt hat, lässt sich kaum sagen. Das könnte zu Streitigkeiten über das intellektuelle Eigentum an den Bildern führen.

Freie Nutzung mit Quellenangabe

Nach deren Nutzungsbedingungen gilt für Midjourney und Stable Diffusion: Die Bilder, die man durch die Programme erhält, dürfen im privaten sowie auch im kommerziellen Umfeld genutzt werden, müssen aber mit einer Quellenangabe versehen werden. Falls die automatisch generierten Bilder beleidigende Inhalte zeigen sollten, müssen die Nutzerinnen und Nutzer dafür geradestehen. Ausserdem kann man insbesondere Bilder, die in den Gratis-Versionen der Software erstellt wurden, nicht für sich alleine beanspruchen: Drittpersonen dürfen sie genauso verwenden wie auch Firmen.

Bei Dall-E ist die Sache etwas komplizierter. Open AI gibt den Nutzern nur das Urheberrecht an den Auftragssätzen, die sie eingegeben oder hochgeladen haben, nicht an den Kreationen des Modells. An diesen behält Open AI das Urheberrecht, erteilt aber denjenigen, die ein Bild erzeugt haben, das exklusive Nutzungsrecht, solange die Nutzungsbedingungen eingehalten werden.

Wie funktioniert die KI hinter den Bilderzeugungstools?

Künstliche Intelligenz, die aus Sätzen Bilder macht, ist aus mehreren Bausteinen aufgebaut. Der erste Bestandteil kann mit Buchstaben umgehen. Es ist ein Sprachmodell, das die Informationen, die in einem Satz gespeichert sind, in einen Zahlencode umrechnen kann. Der letzte Bestandteil ist ein Bilderzeugungsmodell, das plausible Bilder erstellen kann. Und dazwischen ist ein Schritt, in dem die Textinformationen in eine Anleitung umgerechnet werden, die ein passendes Bild erstellt.

Prinzipiell gibt es schon länger künstliche Intelligenz, die diese Rechenschritte macht. Doch eine neue Form der Bilderzeugung hat einen Sprung in der Qualität der erzeugten Bilder gebracht: Die Diffusionsmodelle werden trainiert, indem man ihnen ein Bild immer wieder zeigt, aber nach und nach mehr Bildrauschen hinzufügt.

Das KI-Modell speichert die Zwischenschritte und «lernt» daraus, wie man den Prozess umkehrt. So kann es später aus zufälligem Bildrauschen ein Bild machen. In diesen Diffusionsprozess wird der Text-Code eingebunden. Aus der Kombination der Informationen erschafft die KI ein nie da gewesenes Bild.

Nicht nur die Diffusion, sondern auch die anderen Schritte dieser KI müssen mit vielen Daten trainiert werden. Es braucht dazu eine Menge Text, eine Menge Bilder und eine Menge Text-Bild-Paare.

Das Material, das dazu genutzt werden kann, kommt aus dem schier unendlichen Fundus des Internets. Deshalb reproduzieren die Programme zum Teil Klischees, wie unser Versuch bestätigt. Wenn man nach dem englischsprachigen «doctor» sucht, werden Bilder von Ärztinnen und Ärzten generiert. Wenn man aber nach «competent doctor» sucht, steigen in allen Programmen der Männeranteil und das Alter. Wenn man nach «prisoner» sucht, dann zeigen die Programme nur noch Männer – und anders als bei Ärzten tauchen nun auch Menschen mit dunkler Hautfarbe auf.