Ein Prompt macht mehr als tausend Bilder

Avatar von Marcus Schwarze

Bilder generieren kann die künstliche Intelligenz (KI) spätestens seit Midjourney. Seit wenigen Tagen kann auch GPT-4 Bilder. Und Adobe Firefly in neuer Version. Ein Test.

Gra­fi­ker müs­sen umden­ken. Wer eine Bebil­de­rung für ein schwie­ri­ges The­ma braucht, füt­tert seit ein paar Mona­ten eine Bil­der-KI mit Anwei­sun­gen. Wenn man es rich­tig macht, kommt dabei eine vor­zeig­ba­re Illus­tra­ti­on her­aus. Die­se kann foto­rea­lis­tisch oder wie eine Zeich­nung aus­se­hen, vek­to­ri­siert (wie oben) oder wie ein Ölge­mäl­de – es kommt eben auf den Prompt an, die Regie­an­wei­sung also an die KI.

Mid­jour­ney galt bis­her als der Por­sche unter den gene­ra­ti­ven Bil­der-KIs, obwohl die Bedie­nung in Ver­knüp­fung mit der Chat-Soft­ware Dis­cord nicht eben leicht zu erler­nen war. Die Resul­ta­te aber waren und sind oft überzeugend.

Seit weni­gen Tagen hat auch ChatGPT eine Bil­der­funk­ti­on ein­ge­baut. Sie heißt Dall‑E 3 und lässt sich bei der kos­ten­pflich­ti­gen Ver­si­on GPT‑4 über den gleich­lau­ten­den Menü­punkt akti­ve­ren. Eine Anlei­tung zu Dall‑E 3 kennt GPT‑4 nicht. Aber dafür gibt’s ja mich.

Der Prompt für die vier Bil­der oben in GPT‑4 lau­te­te (deut­sche Über­set­zung folgt):

Create an illustration depicting the role of a meticulous journalist summarizing a specific text according to strict guidelines. The scene should encompass the following elements: The Journalist at the Desk: Showcase a person seated at a desk equipped with a computer, notes, and books. The individual should appear focused, possibly holding a magnifying glass to symbolize attention to detail. A Marked and Annotated Text: Place a document on the desk with highlights, underlines, and annotations, emphasizing the requirements of the journalistic process, such as gendering job titles and avoiding certain words. Vivid Examples: Include small illustrations or symbols representing the themes or concepts described in the text, fulfilling the demand for vivid examples. Neutral Style and Color Scheme: Employ subdued, neutral colors to reflect the journalist's objectivity and neutrality. The goal is to craft a scene that illustrates both the complexity of the journalistic task and the simplicity and clarity of the requirements. The illustration should strike a balance between richness in detail and simplicity, highlighting the care and accuracy of the journalist.

Erstelle eine Illustration, die die Rolle eines sorgfältigen Journalisten beim Zusammenfassen eines spezifischen Textes nach strengen Richtlinien darstellt. Die Szene sollte folgende Elemente umfassen:Der Journalist am Schreibtisch: Zeige eine Person, die an einem mit Computer, Notizen und Büchern ausgestatteten Schreibtisch sitzt. Die Person sollte konzentriert wirken, möglicherweise mit einer Lupe in der Hand, um die Liebe zum Detail zu symbolisieren.Ein markierter und annotierter Text: Platziere ein Dokument auf dem Schreibtisch, das Hervorhebungen, Unterstreichungen und Anmerkungen aufweist. Diese sollen die Anforderungen des journalistischen Prozesses hervorheben, wie zum Beispiel das Gendern von Berufsbezeichnungen und das Vermeiden bestimmter Worte.Lebendige Beispiele: Füge kleine Illustrationen oder Symbole hinzu, die die Themen oder Konzepte im Text repräsentieren und damit den Anspruch an lebendige Beispiele erfüllen.Neutraler Stil und Farbschema: Verwende zurückhaltende, neutrale Farben, um die Objektivität und Neutralität des Journalisten widerzuspiegeln.Das Ziel ist es, eine Szene zu schaffen, die sowohl die Komplexität der journalistischen Aufgabe als auch die Einfachheit und Klarheit der Anforderungen illustriert. Die Illustration sollte ein Gleichgewicht zwischen Detailreichtum und Einfachheit finden und die Sorgfalt und Genauigkeit des Journalisten hervorheben.

Nicht ich habe die­sen Prompt so aus­ge­feilt for­mu­liert, son­dern die KI Chat-GPT bereits vor ein paar Mona­ten. Damals für Mid­jour­ney. Her­aus kam bei Mid­jour­ney die­se Illustration:

Illus­tra­ti­on: KI-gene­rier­t/­Mid­jour­ney­/­Schwar­ze

Bei­de Ergeb­nis­se hal­te ich für beachtlich.

Einen Schritt wei­ter geht die Anwen­dung Fire­fly 2 von Ado­be. Der oben genann­te Prompt ist dafür zu lang und pro­du­ziert des­halb einen Feh­ler. Ver­kür­ze ich den Prompt, kom­men die­se Ergeb­nis­se her­aus – nach zusätz­li­chem Ein­stel­len eines Inhalts­typs Foto (statt Kunst) und Hin­zu­fü­gen der Effek­te Hyper­rea­lis­tisch und Gol­de­ne Stunde.

Illus­tra­ti­on: KI-gene­rier­t/­Fi­re­fly Image 2 (Beta)/Schwarze

Fin­ger und Haut wir­ken etwas unna­tür­lich. Beim Her­un­ter­la­den merkt die Soft­ware an, dass in der Datei Infor­ma­tio­nen hin­ter­legt wer­den, wonach es sich um ein KI-gene­rier­tes Bild handelt.

Illus­tra­ti­on: KI-gene­rier­t/­Fi­re­fly Image 2 (Beta)/Schwarze

Fire­fly erschließt erst­mals bes­ser die berüch­tig­te „Black­box“ der künst­li­chen Intel­li­genz: Bei Mid­jour­ney und Co sto­cher­te man bis­her im Nebel, war­um die Maschi­ne gewis­se Bil­der­ele­men­te gene­rier­te und wel­che Sti­le sie beherrscht und war­um die KI sie anwen­det. Bei Fire­fly ist alles fein zise­liert ein­stell­bar – fast wird man erschla­gen von den Mög­lich­kei­ten. Neben der grund­le­gen­den Fest­le­gung auf Foto oder Kunst las­sen sich zum Bei­spiel fol­gen­de Effek­te anwenden:

Art déco, Jugend­stil, Barock, Bau­haus, Kon­struk­ti­vis­mus, Kubis­mus, Cyber­punk, Fan­ta­sy, Fau­vis­mus, Film noir, Glitch-Kunst, Impres­sio­nis­mus, Indus­trie­de­sign, May­ima­lis­mus, Mini­ma­lis­mus, Moder­ne Kunst, Moder­nism, Neo-Expres­sio­nis­mus, Poin­til­lis­mus, Psy­che­de­lisch, Sci­ence Fic­tion, Steam­punk, Sur­rea­lis­mus, Syn­the­tis­mus, Syn­thwa­ve, Vapor­wa­re, 3D, Ani­me, Car­toon, Kino, Comic, Con­cept Art, Cyber-Matrix, Digi­ta­le Kunst, Fla­che Far­ben, Geo­me­trisch, Glass­mor­phis­mus, Gra­fik-Glitch, Graf­fit­ti, Gra­fik, Hyper­rea­lis­tisch, Innen­aus­stat­tung, Lini­en­ver­lauf, Low-Poly-Art, Zei­tungs­col­la­ge, Opti­sche Täu­schung, Pixel­mus­ter, Pixel-Art, Pop-Art, Pro­dukt­fo­to­gra­fie, Psy­che­de­li­scher Hin­ter­grund, Skan­di­na­visch, Splash-Bil­der, Brief­mar­ke, Trom­pe l’oeil, Vek­tor-Look, Drahtmodell.

Hin­zu kom­men jeweils eben­so viele

  • Tech­ni­ken von Acryl­far­be bis Gekritzelt,
  • wei­te­re Fil­ter von Fisch­au­ge bis Isometrisch,
  • Mate­ria­len wie Koh­le, Holz­schnit­ze­rei oder Marmor,
  • soge­nann­te Kon­zep­te von Chao­tisch bis Göttlich,
  • Farb­ge­bun­gen von schwarz-weiß bis Pastell,
  • Beleuch­tun­gen von Gegen­licht bis Gol­de­ne Stunde,
  • Kom­po­si­tio­nen von Nah­auf­nah­me bis Vogelperspektive.

Die Mög­lich­kei­ten bei Fire­fly sind kom­bi­nier­bar und somit endlos.

Illus­tra­ti­on: KI-gene­rier­t/­Fi­re­fly Image 2 (Beta)/Schwarze

Ein bereits frü­her ver­wen­de­tes Bei­spiel einer neu­en Brü­cke über dem Mit­tel­rhein brach­te sei­ner­zeit bei Mid­jour­ney fol­gen­des Ergebnis:

Design an elegant bridge (40 meters tall) over the River of the Rhine in the middle rhine valley, with separate lanes for pedestrians, cars and bikes, that is a finely geometrical fractal shell, nautilus regular logarithmic spiral geometrically developed fibonacci, translucent, parametric architecture grasshopper, in the golden hour time near the lorelei or Boppard
Illus­tra­ti­on: KI-gene­rier­t/­Mid­jour­ney­/­Schwar­ze, Prompt: im Alt-Text.

Bei GPT‑4 mit Dall‑E 3 tobt sich die Maschi­ne bei dem glei­chen Prompt aus und schießt übers Ziel hinaus:

Illus­tra­ti­on: KI-gene­rier­t/GPT‑4/­Schwar­ze

Ado­be Fire­fly 2 dage­gen setzt stär­ker auf die Rea­li­tät, fast scheint man die Lore­ley im Hin­ter­grund zu erkennen:

Illus­tra­ti­on: KI-gene­rier­t/­Fi­re­fly Image 2 (Beta)/Schwarze

Bei vie­len wei­te­ren Ver­su­chen stell­te sich her­aus, dass mit Ado­be Fire­fly am bes­ten zu steu­ern ist, wie die Maschi­ne agie­ren soll. Aller­dings sind die Ein­stel­lun­gen so viel­fäl­tig, dass sie sich kaum auf Anhieb erschlie­ßen. Ver­such und Irr­tum sind die neu­en Zeit­räu­ber – wie­der ist eine Stun­de weg, ohne dass ein „per­fek­tes“ Ergeb­nis vorliegt.

Ande­rer­seits kann mit den Werk­zeu­gen nun jeder Anfän­ger eine schnel­le Illus­tra­ti­on für eine Prä­sen­ta­ti­on zau­bern. Der Auf­wand beträgt etwas Gehirn­schmalz für den geeig­ne­ten Prompt – und gege­be­nen­falls etwas Überarbeitung.

Für den Lokal­jour­na­lis­mus erge­ben sich so neue Mög­lich­kei­ten. Wenn dann tat­säch­lich nach Jahr­zehn­ten der Dis­kus­si­on über eine neue Brü­cke am Mit­tel­rhein eine wich­ti­ge grund­le­gen­de Ent­schei­dung gefällt wur­de – war­um soll­te man sie nicht mit einer Illus­tra­ti­on doku­men­tie­ren, die die Lese­rin­nen und Leser träu­men lässt? Ande­rer­seits wird der Jour­na­list mit einer sol­chen Dar­stel­lung zum Akteur: Kein Pla­nungs­bü­ro, kein Bau­amt hat die­se Ent­wür­fe gemacht, die Kos­ten unab­seh­bar, die Rea­li­sie­rung in jedem Fall frag­lich. Ent­spre­chend als „KI-gene­riert“ zu kenn­zeich­nen sind die­se Bil­der daher allemal.

fashion photo of a young woman centered straight shot photo shot on Canon EOS R3 f1.8/135 mm of a woman dressed in Gucci, wearing an intricate royal blue dress, natural lighting
Illus­tra­ti­on: KI-gene­rier­t/­Mid­jour­ney­/­Schwar­ze. Prompt: sie­he Alt-Text.

Eines mei­ner Lieb­lings­bil­der der KI, das einer Frau in Guc­ci-Kla­mot­ten (oben), lässt sich bei Fire­fly auch als „Refe­renz­bild“ für neue Krea­tio­nen fest­le­gen. Die Maschi­ne ana­ly­siert dann das Bild und nimmt grund­le­gen­de Erkennt­nis­se für eine neue Dar­stel­lung zum glei­chen Prompt auf. Das Ergebnis:

Illus­tra­ti­on: KI-gene­rier­t/Ado­be Fire­fly 2 (Beta)/Schwarze.

Die grund­le­gen­den Ele­men­te, Far­ben, Stim­mun­gen und Details neu auf­zu­neh­men, wird so zur neu­en Mög­lich­keit, ohne Model, Stu­dio, Schweiß und Trä­nen. Ande­rer­seits birgt die KI-Tech­nik die Gefahr, sich in den Tie­fen des Promp­tens zu ver­zet­teln. Und 100-pro­zen­tig authen­tisch wir­ken die Ergeb­nis­se wei­ter­hin nur per Zufall.