Schlagwort: Newsletter

  • Künstliche Intelligenz erweckt Memes zu Kurzvideos

    Künstliche Intelligenz erweckt Memes zu Kurzvideos

    Das viel­leicht berühm­tes­te oder zumin­dest lang­le­bigs­te Meme des Inter­nets heißt „Dis­trac­ted Boy­fri­end“ und zeigt einen jun­gen Mann, der mit sei­ner Part­ne­rin die Stra­ße ent­lang­geht; als bei­de einer ande­ren Frau begeg­nen, schaut er ihr lüs­tern hin­ter­her, sei­ne Freun­din blickt ihn dabei ungläu­big-irri­tiert an. Die insze­nier­te Auf­nah­me stammt von dem spa­ni­schen Foto­gra­fen Anto­nio Guil­lem, auf­ge­nom­men hat er sie 2015 in der kata­la­ni­schen Stadt Girona.

    Zum Meme, einem vira­len Inter­net­phä­no­men also, wur­de es auf Twit­ter im Jahr 2017, als jemand die Part­ne­rin als „Kapi­ta­lis­mus“ beti­tel­te, den Mann als „die Jugend“ und die Frem­de als „Sozia­lis­mus“. Seit­her gab es Tau­sen­de Vari­an­ten die­ses Bil­des, in dem Untreue oder die Abkehr vom Bis­he­ri­gen ver­sinn­bild­licht wur­den. (Bevor jemand fragt: Ich habe die Nut­zungs­rech­te an dem Bild für die­sen Bei­trag ordent­lich bei iStock­Pho­to gekauft.)

    Nun ent­stand dar­aus ein Video. X‑Nutzer @fofrAI hat die glei­che Sze­ne mit­hil­fe der Soft­ware Sta­ble Video Dif­fu­si­on so ani­miert,

    … dass die Frem­de aus dem Bild läuft, der Mann ihr wei­ter hin­ter­her­schaut und der miss­bil­li­gen­de Blick der Part­ne­rin län­ger anhält. Es ist nur eine kur­ze Sze­ne. Doch wirk­te sie vor ein paar Wochen wie der Start­schuss zur Ani­ma­ti­on wei­te­rer Memes.

    So ani­miert Este­ban Oroz­co das berühm­te lächeln­de Mäd­chen vor einem abbren­nen­den Haus in lodern­den Flam­men.

    Rodri­go Fer­nan­dez gestal­tet die Sze­ne noch etwas rea­lis­ti­scher.

    Jemand mit dem Account­na­men Art­ony­mousart­fakt belebt den bekann­ten Seni­or „Hide the Pain Harold“ mit einer Kaf­fee­tas­se am Laptop.

    Auch das „Suc­cess Kid“, ein klei­ner Jun­ge im grün-wei­ßen Pull­over mit geball­ter Faust, wird durch die KI zu neu­em Leben erweckt. Das Meme stammt aus dem Jahr 2007.

    Die Qua­li­tät der Sequen­zen hat noch Luft nach oben. Die KI ver­än­dert die Gesichts­zü­ge teil­wei­se unna­tür­lich. Und die Kür­ze der Sze­nen deu­tet dar­auf­hin, wie viel Auf­wand, Ener­gie und Kos­ten der Spaß verursacht.

    Doch braucht es nicht viel Vor­stel­lungs­kraft, was die Ani­ma­ti­ons­pro­gram­me in den nächs­ten Mona­ten und Jah­ren erschaf­fen: Aus Schnapp­schüs­sen wer­den real wir­ken­de Film­chen. Ob Mona Lisa oder der Times-Squa­re-Kuss eines Mari­ne­sol­da­ten, Albert Ein­steins her­aus­ge­streck­te Zun­ge oder die Beat­les auf dem Zebra­strei­fen auf der Abbey Road – sie alle dürf­ten von Enthu­si­as­ten künf­tig neue Bewe­gun­gen ein­ge­haucht bekommen.

    Wo das hin­führt, zeigt eine Wer­bung von Coca-Cola, die das Werk unbe­schei­den als Mas­ter­pie­ce bezeich­net und berühm­te Bil­der in einer Aus­stel­lung ani­miert. Wie ein „Making of“ der Sze­nen in einem wei­te­ren Video zeigt, kam aller­dings bei­lei­be nicht der gesam­te Clip aus der künst­li­chen Intel­li­genz – es war zusätz­lich hoher Auf­wand und viel mensch­li­che Nach­be­ar­bei­tung mit­tels VFX-Tech­nik nötig. Das Video blen­det zu Beginn ein, bei wel­cher Nach­be­ar­bei­tung die KI unterstützte.

    Die Vor­stel­lungs­kraft der Kon­zer­ne reicht bereits weit dar­über hin­aus. Denn nicht nur die Her­stel­lung von Vide­os, auch deren Ana­ly­se wird umge­kehrt wei­te­rer Gegen­stand der KI. Das hat Goog­le ver­gan­ge­ne Woche gezeigt. Der Kon­zern schum­mel­te aller­dings bei der Vor­stel­lung sei­ner künf­ti­gen KI Gemi­ni Ultra in einem spek­ta­ku­lä­ren Video. Es wirkt, als hät­ten die PR-Hei­nis bei Goog­le den KI-Jün­gern beim jüngs­ten Arm­drü­cken im neu­en Goog­le Visi­tor Expe­ri­ence-Bereich gezeigt, wo der Ham­mer hängt:

    Neben­an im D:Economy-Briefing der FAZ habe ich mir nicht nur das Video, son­dern auch die KI näher ange­schaut – und getestet.

    Wei­te­re The­men im dor­ti­gen „Prompt der Woche“ aus der jüngs­ten Zeit:

  • Wie kreativ kann Künstliche Intelligenz sein? Eine Witze-KI über die tollen Tage bei OpenAI

    Wie kreativ kann Künstliche Intelligenz sein? Eine Witze-KI über die tollen Tage bei OpenAI

    (Illus­tra­ti­on: Mar­cus Schwarze/Midjourney, KI-generiert)

    Kurz nach­er­zählt: Der Vor­stand von Ope­nAI hat Sam Alt­man als Chef des Unter­neh­mens über­ra­schend ent­las­sen und eben­so Mit­grün­der Greg Brock­man. Bei­de heu­ern nun beim gro­ßen Geld­ge­ber Micro­soft an.

    Und mehr als 500 von rund 700 Mit­ar­bei­tern bei Ope­nAI haben laut Kara Swis­her, Tech-Jour­na­lis­tin in San Fran­cis­co, erklärt, den bei­den fol­gen zu wol­len, falls der Vor­stand nicht zurück­tritt und die bei­den nicht zurückholt.

    Die Instruk­ti­on an die Maschi­ne zur Erfin­dung einer Wit­ze-KI lautet:

    Du bist Hauptgagschreiber für eine wöchentliche Sendung „Gestern-Show“. Deine Aufgabe ist es, fünf herausragende Witzvorschläge zu aktuellen Ereignissen zu kreieren. Zuerst fragst Du nach dem aktuellen Ereignis und bittest um eine Beschreibung. Danach entfaltest Du Deine Kreativität, treibst den Witz auf absurde Ebenen und krönst ihn mit einer Pointe. Du solltest einfallsreich, humorvoll sein und Witze liefern, die sowohl relevant als auch übertrieben sind. Alle Antworten werden auf Deutsch gegeben.

    Der­art ange­wie­sen, schlug die KI einen Bot namens „Gag­meis­ter Ges­tern“ vor. Und mach­te fünf Vor­schlä­ge für Witze:

    Ach, die OpenAI-Geschichte! Perfekt für einen Gag. Also, stellen wir uns vor:1. Die Microsoft-Übernahme: "Haben Sie gehört? OpenAI hat Sam Altman und Greg Brockman gefeuert, und die sind direkt zu Microsoft. Das erklärt endlich, warum Microsofts neueste KI plötzlich anfängt, E-Mails mit 'Mit künstlichen Grüßen, Sam und Greg' zu unterschreiben!"2. Die Mitarbeiter-Rebellion: "Über 500 Mitarbeiter von OpenAI wollen ihren Chefs zu Microsoft folgen. Ich meine, das ist wie bei einem Konzert: Wenn die Band die Bühne verlässt, folgt das Publikum... nur dass in diesem Fall das Publikum aus lauter Programmierern besteht, die verzweifelt versuchen, ihre Bürostühle durch die Notausgänge zu schieben."3. Die Vorstandssitzung: "Der Vorstand von OpenAI hat eine Krisensitzung einberufen. Es ging drunter und drüber. Einer schlug vor, die KI um Rat zu fragen, aber dann erinnerten sie sich, dass die KI jetzt bei Microsoft arbeitet und wahrscheinlich nur antworten würde: 'Haben Sie versucht, sie aus- und wieder einzuschalten?'"4. Die neue Jobbeschreibung: "Sam Altman und Greg Brockman bei Microsoft – das ist wie wenn die Beatles sich aufgelöst hätten und John Lennon und Paul McCartney bei einer Hochzeitsband angefangen hätten. Statt 'Revolution' singen sie jetzt 'Für immer und ewig'."5. Die Zukunft von OpenAI: "Und was wird jetzt aus OpenAI? Sie suchen nach einem neuen CEO. Gerüchten zufolge steht ganz oben auf der Liste ein sehr talentierter Toaster mit WiFi-Anschluss. Er hat zwar keine Führungserfahrung, aber er macht hervorragende Toasts und hat eine ausgezeichnete Verbindung zu smarten Kühlschränken." 

    Befragt, wel­cher der bes­te die­ser „Wit­ze“ sei, nennt die Maschi­ne jenen mit den Pro­gram­mie­rern, die ver­zwei­felt ver­su­chen, ihre Büro­stüh­le durch die Not­aus­gän­ge zu schieben.

    Die Vor­stel­lung mag als insze­nier­te Dar­stel­lung durch­aus für eine „Ges­tern-Show“ tau­gen – aber ist sie wirk­lich wit­zig? Der Ver­such, sich so etwas von der Bil­der-KI Mid­jour­ney zeich­nen zu las­sen, schei­ter­te übri­gens, selbst mit­hil­fe einer Prompt-Per­fek­tio­nier-Maschi­ne.

    Eine Wei­le noch muss sich der bekann­te Haupt­au­tor einer nam­haf­ten Show von heu­te wohl noch kei­ne Sor­gen um sei­nen Job oder sei­nen emp­feh­lens­wer­ten und stets feh­ler­frei­en News­let­ter machen.

    Oder begin­nen, sie mit bei­spiel­haf­ten Wit­zen zu trai­nie­ren, damit die Maschi­ne die Ana­to­mie eines guten Wit­zes lernt. In einem Kurz­test hat­te die Maschi­ne dann mit ange­füt­ter­ten Wit­zet­weets etwas bes­ser die gewünsch­te Spra­che ver­stan­den – aber an Peter und sei­ne Kol­le­gen reicht die­ser digi­ta­le Bur­sche noch nicht her­an. Für den Zugang zu dem Bot ist ein Bezah­l­abo von ChatGPT‑4 nötig.

  • Was die Leute auf Social Media am meisten bewegt
    (Illustration: Marcus Schwarze/Midjourney, KI-generiert)

    Was die Leute auf Social Media am meisten bewegt

    Wer ist auf Face­book und Insta­gram am erfolg­reichs­ten? Fan­page Kar­ma, eine Anwen­dung von Meta, ermög­licht, das her­aus­zu­fin­den. Dem­nach war in die­sem Jahr in Deutsch­land Fuß­ball­star Cris­tia­no Ronal­do auf Platz 1 mit die­sem Post

    zu sei­nem Ein­stand beim sau­di­ara­bi­schen Arbeit­ge­ber AlNassr Club (übri­gens mit einem Feh­ler beim mar­kier­ten Insta­gram-Account des Klubs). 28 Mil­lio­nen Reak­tio­nen erzeug­te der Bei­trag, also Likes und Kommentare.

    Auf Platz 2: Cris­tia­no Ronaldo.

    Auf Platz 3: Cris­tia­no Ronaldo.

    Auf Platz 4: Cris­tia­no Ronaldo.

    Auf Platz 5: Sie ahnen es.

    So geht das wei­ter bis sage und schrei­be Platz 146. Die in Deutsch­land erfolg­reichs­ten 146 Insta­gram-Posts des Jah­res stam­men von einem Fuß­bal­ler in Riad.

    Erst dann folgt eine hals­bre­che­ri­sche Moun­tain­bike-Fahrt von Red Bull Deutschland, …

    … mehr von Ronal­do, das Bild eines Porsche …

    in der Far­be „Gefro­re­ne Bee­re“ (man­che sagen auch Flie­der), mehr von Ronal­do und dann Benimm­re­geln fürs Essen von Spa­ghet­ti und Pizza.

    Und auf Facebook?

    In Deutsch­land auf Platz 1: ein Herr mit der Bezeich­nung Bart­mann, der sich dabei filmt, wie er auf geklau­te Video­clips von Tik­Tok reagiert.

    Auf Platz 2: Bart­mann, der sich dabei filmt …

    Auf Platz 3: Bart­mann.

    Auf Platz 4: Sie ahnen es.

    Anders als bei Ronal­do fol­gen nun durch­aus ande­re Kon­ten, doch zählt die Rang­lis­te der Top 5000 Bei­trä­ge die­ses Jah­res 257-mal den Bart­mann. Mit bür­ger­li­chem Namen heißt der Herr Agrie Ahmad und stammt aus Mann­heim. Gestar­tet ist er 2014 mit Bart­pfle­ge­tipps – und heu­te Influen­cer mit Mil­lio­nen Fol­lo­wern auf diver­sen Kanä­len. Zu Hau­se ist der Bart­mann inzwi­schen in Dubai in den Ver­ei­nig­ten Ara­bi­schen Emiraten.

    Ein Fuß­bal­ler in Riad und ein Bar­bier mit abge­lehn­tem Wiki­pe­dia­ein­trag in den Emi­ra­ten. Das ist die Éli­te im deut­schen Teil von Face­book und Instagram.

    In der Rubrik Nach­rich­ten schlägt der bekann­te Nach­rich­ten­ka­nal Vogue Ger­ma­ny mit gleich drei soge­nann­ten News den WDR und BR Klas­sik.

    In der Rubrik Poli­tik: auf Platz 1 bis 15 Posts von AfD-Accounts.

    Rele­vanz? Man muss lan­ge suchen, um in den 5000 wich­tigs­ten Posts etwas von Bedeu­tung zu fin­den. Wir haben Kli­ma, Isra­el, Ukrai­ne – und eine wach­sen­de Zahl an Men­schen, die sich über die sozia­len Medi­en über das Gesche­hen infor­miert fühlen.

  • Bilder bilden weiter

    Bilder bilden weiter

    Ers­te Bei­spie­le beschrieb ich im „Prompt der Woche“ bei der F.A.Z., wei­te­re möch­te ich hier veranschaulichen.

    Da ist die­se Gra­fik glo­ba­ler Han­dels­strö­me der Welt­han­dels­or­ga­ni­sa­ti­on. Hoch­ge­la­den bei ChatGPT-4V, erkennt die Maschine:

    Das bereitgestellte Diagramm zeigt die globalen Handelsströme des Warenhandels im Jahr 2011 in Milliarden Dollar. Hier sind die wichtigsten Informationen aus dem Diagramm:Regionale Handelswerte (in Milliarden Dollar) für 2011:Europa: 4.667Asien/Pazifik: 2.926Nordamerika: 1.103Russland/GUS: 754Nahost: 710Lateinamerika: 200Afrika: (Der genaue Wert ist nicht sichtbar, aber es scheint etwas über 150 zu sein)Interregionale Handelsströme (in Milliarden Dollar):Beispielsweise handelte Europa Waren im Wert von 906 Milliarden Dollar mit Asien/Pazifik und 476 Milliarden Dollar mit Nordamerika. Es gibt auch andere Handelsströme zwischen verschiedenen Regionen, die durch Pfeile und Zahlen dargestellt werden.Steigerung der Exporte von 2011 im Vergleich zu 2010 (in %):Nahost: +37,4%GUS/Russland: +33,9%Lateinamerika: +27,4%Asien/Pazifik: +18,0%Europa: +17,4%Afrika: +16,8%Nordamerika: +16,2%Weltweit: +19,7%Das Diagramm gibt einen Überblick über die Handelsbeziehungen und -werte zwischen den verschiedenen Regionen der Welt für das Jahr 2011. Es zeigt auch, wie sich die Exporte dieser Regionen im Vergleich zum Vorjahr gesteigert haben. Die Datenquelle ist die World Trade Organization (WTO).

    Meh­re­re Feh­ler hat die­se Aus­wer­tung: Der regio­na­le Han­dels­wert für Afri­ka sei nicht sicht­bar, „aber es scheint etwas über 150 [Mil­li­ar­den Dol­lar] zu sein“. Die Gra­fik benennt tat­säch­lich 77 Mil­li­ar­den Dol­lar. Eben­so sind die Waren­wer­te zwi­schen Euro­pa und Asi­en sowie Nord­ame­ri­ka im Text falsch ange­ge­ben. Und auch bei den regio­na­len Han­dels­wer­ten von Russ­land und Nah­ost hat sich die Maschi­ne ver­tan, offen­bar die ähn­li­chen Zif­fern 7 und 1 in der Tex­terken­nung verwechselt.

    Es gilt also, höl­lisch auf­zu­pas­sen bei den Details.

    Dabei dürf­te schon hel­fen, statt einer JPG-Datei künf­tig ein PDF als Quel­le hoch­zu­la­den (bis­her geht das nicht). Dann ent­fie­le die feh­ler­be­haf­te Ziffernerkennung.

    Den­noch zeigt die­se maschi­nel­le Ana­ly­se die Rich­tung: Rich­ti­ger­wei­se hat die KI erkannt, wor­um es geht. Gelingt es jetzt noch, weni­ger Feh­ler ein­zu­bau­en – und dar­auf deu­tet die Ent­wick­lung hin –, so wer­den neue Erkennt­nis­se und Inter­pre­ta­tio­nen eine Sache von Sekun­den. Die Maschi­nen erkun­den Zusammenhänge.

    Worum geht’s hier?

    Der Prompt hier­zu lau­te­te: Wor­um geht’s? (Foto: Schwarze)

    Im Ansatz klappt das mit dem Bild einer Stell­ta­fel: Eine Grup­pe von Medi­en­ma­na­gern papp­te hier vor ein paar Jah­ren zu einem Zukunfts­the­ma Kle­be­zet­tel an die Wand, beschrie­ben mit Stich­wör­tern zur künf­ti­gen Bezahl­schran­ke eines Online-Ange­bots. Die hand­schrift­li­chen Zet­tel wur­den spä­ter von den Teil­neh­mern mit Punk­ten beklebt, je nach Ein­schät­zung der Wichtigkeit.

    Das hoch­ge­la­de­ne Foto der Stell­ta­fel wur­de von GPT-4V auf die lis­ti­ge Fra­ge „Wor­um geht’s?“ aus­ge­le­sen und mit drei, vier wei­te­ren fol­gen­den Prompts neu sor­tiert. Her­aus kam eine Tabel­le mit den wich­tigs­ten Punk­ten, soweit die Maschi­ne die Hand­schrift erken­nen konn­te. „Es scheint, als han­de­le es sich um ein Brain­stor­ming oder eine Pla­nungs­ta­fel zu den The­men ‚Con­tent‘ und ‚Ziel­grup­pe‘.“

    Die Maschi­ne war auch in der Lage, die Anzahl der auf­ge­kleb­ten Punk­te bei ein­zel­nen Kle­be­zet­teln aus­zu­zäh­len. Nicht per­fekt, aber es ergab eine ziel­füh­ren­de, gute Grundlage.

    Die Magie der KI ist dabei erkenn­bar, aber noch nicht zuver­läs­sig und all­tags­über­zeu­gend. Nicht jede Sau­klaue wird erkannt, die Anord­nung der Begrif­fe ver­rutscht teil­wei­se. Doch auch hier ste­hen wir ein­mal mehr am Anfang einer neu­en Ent­wick­lung. Der Pro­to­kol­lant sorgt sich um sei­nen Job, der Kol­le­ge mit KI-Kennt­nis­sen macht dar­aus sei­nen nächs­ten Karriereschritt.

    Bild-Posts für Social Media bewerten

    Für ein drit­tes Bei­spiel ver­wei­se ich auf den Kol­le­gen Felix Beil­harz: Er hat bei Lin­ke­dIn Bei­spie­le von Social-Media-Posts unter­sucht, bei GPT4‑V ein­ge­speist und um eine fach­kun­di­ge Stel­lung­nah­me gebe­ten, sinn­ge­mäß: Wie gut ist der Post? Ist die Schrift groß genug? Die Bebil­de­rung hilf­reich? Die Maschi­ne ent­deckt in dem hoch­ge­la­de­nen Bild unter ande­rem einen man­geln­den „Call to Action“, also eine kla­re Auf­for­de­rung, was der Leser oder die Leser als Nächs­tes machen sollte.

    Ein Flussdiagramm interpretieren

    Das vier­te und letz­te Bei­spiel für den Beginn einer neu­en Zeit ist mein Lieb­ling: Die fol­gen­de Gra­fik erstell­te ich wäh­rend der Coro­na­zeit für die Lan­des­re­gie­rung. Im extre­men Hoch­for­mat ver­an­schau­lich­te sie, wie lan­ge damals jemand in Qua­ran­tä­ne gehen muss­te, sobald ein Kol­le­ge im Büro sich als infi­ziert krankmeldete.

    Dem Dia­gramm ging ein genüss­li­cher Aus­tausch mit auf­ge­mal­ten Ent­wür­fen von Zeich­nun­gen von Fach­leu­ten voraus.

    GPT-4V ist in der Lage, dem ent­stan­de­nen Fluss­dia­gramm zu fol­gen – und die all­ge­mei­nen Regeln auf einen per­sön­li­chen Fall anzuwenden.

    Der Prompt: Wie lan­ge muss ich selbst in Qua­ran­tä­ne, wenn ich

    • a) mit dem infi­zier­ten Kol­le­gen am Mon­tag engen Kon­takt hatte,
    • b) heu­te Mitt­woch ist und
    • c) er sich krank­ge­mel­det hat,
    • d) ich soeben einen posi­ti­ven PCR-Test gemacht habe und
    • e) selbst Sym­pto­me aufweise?

    Die Ant­wort, gekürzt: Da Sie als posi­tiv getes­te­te Per­son gel­ten, müs­sen Sie sich (wei­ter­hin) iso­lie­ren. Sie haben zwei Optio­nen zur Been­di­gung der Qua­ran­tä­ne. Opti­on 1: Sie müs­sen sich frü­hes­tens am 11. Tag der Iso­la­ti­on erneut einem PCR-Test unter­zie­hen. Wenn die­ser Test nega­tiv ist, kön­nen Sie die Iso­la­ti­on frü­hes­tens am 14. Tag been­den. Opti­on 2: Sie müs­sen am ers­ten Tag der Sym­pto­me oder am 14. Tag der Iso­la­ti­on einen PCR-Test durch­füh­ren lassen.

    Das ist bei der Opti­on 2 zwar nicht 100 Pro­zent exakt, aber nahe dran. Die KI kann künf­tig auch dabei hel­fen, Unklar­hei­ten in bestimm­ten For­mu­lie­run­gen eines sol­chen Dia­gramms auf­zu­stö­bern. Jetzt stel­le man sich das Ergeb­nis in ein, zwei Jah­ren vor, wenn auch die Bild-Erken­nungs-KI erwach­sen wird.

    Beim Wie­der­fin­den des Stell­ta­fel-Bil­des inmit­ten von 55.000 Fotos half übri­gens eine ande­re KI: die von Apple Fotos. Sie hat alle die­se Bil­der unter­sucht, erkennt Moti­ve, Per­so­nen, Objek­te und Orte sowie hand­ge­schrie­be­ne und gedruck­te ent­hal­te­ne Tex­te. Die Suche lief nach dem Wort „Con­tent“, das ein­zi­ge, an das ich mich erin­nern konn­te. Gera­de hat Apple sei­ne iCloud-Funk­ti­on für bis zu 12 Tera­byte (statt bis­her 2 TB) an Daten freigeschaltet.


    Künstliche Intelligenz im Videokurs …

    Seit ver­gan­ge­ner Woche ist die kos­ten­pflich­ti­ge Wolf-Schnei­der-KI drau­ßen. Sie über­ar­bei­tet Tex­te nach den Regeln Schnei­ders. Ich hat­te sie bereits vor­ab mit­tes­ten kön­nen und Ergeb­nis­se hier beschrieben.

    Gemein­sam mit Ales­san­dro Alvia­ni von Ippen Media und den Kol­le­gen der Repor­ter­fa­brik gibt es par­al­lel zum Start der WSKI ein kos­ten­lo­ses Online-Semi­nar zu Künst­li­cher Intel­li­genz im Jour­na­lis­mus. Ales­san­dro gibt dazu einen Ein­blick in die Ent­wick­lung, ich steue­re prak­ti­sche Anwen­dun­gen bei.


    … und in der Branche

    Prak­ti­sche Lösun­gen für Publisher ste­hen auch im Mit­tel­punkt des Bran­chen­ma­ga­zins Kress Pro, das einen bekann­ten Prompt­prak­ti­kan­ten auf den Titel hob. Man soll­te ein Geschäfts­mo­dell dar­aus machen: Die Aus­ga­be kos­tet 38 Euro. Chef­re­dak­teur Mar­kus Wie­gand hat auf­ge­schrie­ben, um wel­che Anwen­dun­gen es im Ein­zel­nen geht.

    Eine KI-gestütz­te Ana­ly­se sei­nes Pos­tings (als Screen­shot) besagt unter ande­rem: „Das Titel­bild zeigt eine Nah­auf­nah­me eines Man­nes, der seri­ös und nach­denk­lich aus­sieht.“ So weit, so schmei­chel­haft (Dan­ke, Sascha!). Aber zu mög­li­chen Kri­tik­punk­ten: „Bild­aus­wahl: Obwohl das Foto des Man­nes pro­fes­sio­nell aus­sieht, könn­te es für eini­ge Betrach­ter nicht sofort klar sein, wer er ist oder wel­che Rol­le er im Kon­text des Maga­zin­the­mas spielt.“

  • Ein Prompt macht mehr als tausend Bilder

    Ein Prompt macht mehr als tausend Bilder

    Gra­fi­ker müs­sen umden­ken. Wer eine Bebil­de­rung für ein schwie­ri­ges The­ma braucht, füt­tert seit ein paar Mona­ten eine Bil­der-KI mit Anwei­sun­gen. Wenn man es rich­tig macht, kommt dabei eine vor­zeig­ba­re Illus­tra­ti­on her­aus. Die­se kann foto­rea­lis­tisch oder wie eine Zeich­nung aus­se­hen, vek­to­ri­siert (wie oben) oder wie ein Ölge­mäl­de – es kommt eben auf den Prompt an, die Regie­an­wei­sung also an die KI.

    Mid­jour­ney galt bis­her als der Por­sche unter den gene­ra­ti­ven Bil­der-KIs, obwohl die Bedie­nung in Ver­knüp­fung mit der Chat-Soft­ware Dis­cord nicht eben leicht zu erler­nen war. Die Resul­ta­te aber waren und sind oft überzeugend.

    Seit weni­gen Tagen hat auch ChatGPT eine Bil­der­funk­ti­on ein­ge­baut. Sie heißt Dall‑E 3 und lässt sich bei der kos­ten­pflich­ti­gen Ver­si­on GPT‑4 über den gleich­lau­ten­den Menü­punkt akti­ve­ren. Eine Anlei­tung zu Dall‑E 3 kennt GPT‑4 nicht. Aber dafür gibt’s ja mich.

    Der Prompt für die vier Bil­der oben in GPT‑4 lau­te­te (deut­sche Über­set­zung folgt):

    Create an illustration depicting the role of a meticulous journalist summarizing a specific text according to strict guidelines. The scene should encompass the following elements: The Journalist at the Desk: Showcase a person seated at a desk equipped with a computer, notes, and books. The individual should appear focused, possibly holding a magnifying glass to symbolize attention to detail. A Marked and Annotated Text: Place a document on the desk with highlights, underlines, and annotations, emphasizing the requirements of the journalistic process, such as gendering job titles and avoiding certain words. Vivid Examples: Include small illustrations or symbols representing the themes or concepts described in the text, fulfilling the demand for vivid examples. Neutral Style and Color Scheme: Employ subdued, neutral colors to reflect the journalist's objectivity and neutrality. The goal is to craft a scene that illustrates both the complexity of the journalistic task and the simplicity and clarity of the requirements. The illustration should strike a balance between richness in detail and simplicity, highlighting the care and accuracy of the journalist.

    Erstelle eine Illustration, die die Rolle eines sorgfältigen Journalisten beim Zusammenfassen eines spezifischen Textes nach strengen Richtlinien darstellt. Die Szene sollte folgende Elemente umfassen:Der Journalist am Schreibtisch: Zeige eine Person, die an einem mit Computer, Notizen und Büchern ausgestatteten Schreibtisch sitzt. Die Person sollte konzentriert wirken, möglicherweise mit einer Lupe in der Hand, um die Liebe zum Detail zu symbolisieren.Ein markierter und annotierter Text: Platziere ein Dokument auf dem Schreibtisch, das Hervorhebungen, Unterstreichungen und Anmerkungen aufweist. Diese sollen die Anforderungen des journalistischen Prozesses hervorheben, wie zum Beispiel das Gendern von Berufsbezeichnungen und das Vermeiden bestimmter Worte.Lebendige Beispiele: Füge kleine Illustrationen oder Symbole hinzu, die die Themen oder Konzepte im Text repräsentieren und damit den Anspruch an lebendige Beispiele erfüllen.Neutraler Stil und Farbschema: Verwende zurückhaltende, neutrale Farben, um die Objektivität und Neutralität des Journalisten widerzuspiegeln.Das Ziel ist es, eine Szene zu schaffen, die sowohl die Komplexität der journalistischen Aufgabe als auch die Einfachheit und Klarheit der Anforderungen illustriert. Die Illustration sollte ein Gleichgewicht zwischen Detailreichtum und Einfachheit finden und die Sorgfalt und Genauigkeit des Journalisten hervorheben.

    Nicht ich habe die­sen Prompt so aus­ge­feilt for­mu­liert, son­dern die KI Chat-GPT bereits vor ein paar Mona­ten. Damals für Mid­jour­ney. Her­aus kam bei Mid­jour­ney die­se Illustration:

    Illus­tra­ti­on: KI-gene­rier­t/­Mid­jour­ney­/­Schwar­ze

    Bei­de Ergeb­nis­se hal­te ich für beachtlich.

    Einen Schritt wei­ter geht die Anwen­dung Fire­fly 2 von Ado­be. Der oben genann­te Prompt ist dafür zu lang und pro­du­ziert des­halb einen Feh­ler. Ver­kür­ze ich den Prompt, kom­men die­se Ergeb­nis­se her­aus – nach zusätz­li­chem Ein­stel­len eines Inhalts­typs Foto (statt Kunst) und Hin­zu­fü­gen der Effek­te Hyper­rea­lis­tisch und Gol­de­ne Stunde.

    Illus­tra­ti­on: KI-gene­rier­t/­Fi­re­fly Image 2 (Beta)/Schwarze

    Fin­ger und Haut wir­ken etwas unna­tür­lich. Beim Her­un­ter­la­den merkt die Soft­ware an, dass in der Datei Infor­ma­tio­nen hin­ter­legt wer­den, wonach es sich um ein KI-gene­rier­tes Bild handelt.

    Illus­tra­ti­on: KI-gene­rier­t/­Fi­re­fly Image 2 (Beta)/Schwarze

    Fire­fly erschließt erst­mals bes­ser die berüch­tig­te „Black­box“ der künst­li­chen Intel­li­genz: Bei Mid­jour­ney und Co sto­cher­te man bis­her im Nebel, war­um die Maschi­ne gewis­se Bil­der­ele­men­te gene­rier­te und wel­che Sti­le sie beherrscht und war­um die KI sie anwen­det. Bei Fire­fly ist alles fein zise­liert ein­stell­bar – fast wird man erschla­gen von den Mög­lich­kei­ten. Neben der grund­le­gen­den Fest­le­gung auf Foto oder Kunst las­sen sich zum Bei­spiel fol­gen­de Effek­te anwenden:

    Art déco, Jugend­stil, Barock, Bau­haus, Kon­struk­ti­vis­mus, Kubis­mus, Cyber­punk, Fan­ta­sy, Fau­vis­mus, Film noir, Glitch-Kunst, Impres­sio­nis­mus, Indus­trie­de­sign, May­ima­lis­mus, Mini­ma­lis­mus, Moder­ne Kunst, Moder­nism, Neo-Expres­sio­nis­mus, Poin­til­lis­mus, Psy­che­de­lisch, Sci­ence Fic­tion, Steam­punk, Sur­rea­lis­mus, Syn­the­tis­mus, Syn­thwa­ve, Vapor­wa­re, 3D, Ani­me, Car­toon, Kino, Comic, Con­cept Art, Cyber-Matrix, Digi­ta­le Kunst, Fla­che Far­ben, Geo­me­trisch, Glass­mor­phis­mus, Gra­fik-Glitch, Graf­fit­ti, Gra­fik, Hyper­rea­lis­tisch, Innen­aus­stat­tung, Lini­en­ver­lauf, Low-Poly-Art, Zei­tungs­col­la­ge, Opti­sche Täu­schung, Pixel­mus­ter, Pixel-Art, Pop-Art, Pro­dukt­fo­to­gra­fie, Psy­che­de­li­scher Hin­ter­grund, Skan­di­na­visch, Splash-Bil­der, Brief­mar­ke, Trom­pe l’oeil, Vek­tor-Look, Drahtmodell.

    Hin­zu kom­men jeweils eben­so viele

    • Tech­ni­ken von Acryl­far­be bis Gekritzelt,
    • wei­te­re Fil­ter von Fisch­au­ge bis Isometrisch,
    • Mate­ria­len wie Koh­le, Holz­schnit­ze­rei oder Marmor,
    • soge­nann­te Kon­zep­te von Chao­tisch bis Göttlich,
    • Farb­ge­bun­gen von schwarz-weiß bis Pastell,
    • Beleuch­tun­gen von Gegen­licht bis Gol­de­ne Stunde,
    • Kom­po­si­tio­nen von Nah­auf­nah­me bis Vogelperspektive.

    Die Mög­lich­kei­ten bei Fire­fly sind kom­bi­nier­bar und somit endlos.

    Illus­tra­ti­on: KI-gene­rier­t/­Fi­re­fly Image 2 (Beta)/Schwarze

    Ein bereits frü­her ver­wen­de­tes Bei­spiel einer neu­en Brü­cke über dem Mit­tel­rhein brach­te sei­ner­zeit bei Mid­jour­ney fol­gen­des Ergebnis:

    Design an elegant bridge (40 meters tall) over the River of the Rhine in the middle rhine valley, with separate lanes for pedestrians, cars and bikes, that is a finely geometrical fractal shell, nautilus regular logarithmic spiral geometrically developed fibonacci, translucent, parametric architecture grasshopper, in the golden hour time near the lorelei or Boppard
    Illus­tra­ti­on: KI-gene­rier­t/­Mid­jour­ney­/­Schwar­ze, Prompt: im Alt-Text.

    Bei GPT‑4 mit Dall‑E 3 tobt sich die Maschi­ne bei dem glei­chen Prompt aus und schießt übers Ziel hinaus:

    Illus­tra­ti­on: KI-gene­rier­t/GPT‑4/­Schwar­ze

    Ado­be Fire­fly 2 dage­gen setzt stär­ker auf die Rea­li­tät, fast scheint man die Lore­ley im Hin­ter­grund zu erkennen:

    Illus­tra­ti­on: KI-gene­rier­t/­Fi­re­fly Image 2 (Beta)/Schwarze

    Bei vie­len wei­te­ren Ver­su­chen stell­te sich her­aus, dass mit Ado­be Fire­fly am bes­ten zu steu­ern ist, wie die Maschi­ne agie­ren soll. Aller­dings sind die Ein­stel­lun­gen so viel­fäl­tig, dass sie sich kaum auf Anhieb erschlie­ßen. Ver­such und Irr­tum sind die neu­en Zeit­räu­ber – wie­der ist eine Stun­de weg, ohne dass ein „per­fek­tes“ Ergeb­nis vorliegt.

    Ande­rer­seits kann mit den Werk­zeu­gen nun jeder Anfän­ger eine schnel­le Illus­tra­ti­on für eine Prä­sen­ta­ti­on zau­bern. Der Auf­wand beträgt etwas Gehirn­schmalz für den geeig­ne­ten Prompt – und gege­be­nen­falls etwas Überarbeitung.

    Für den Lokal­jour­na­lis­mus erge­ben sich so neue Mög­lich­kei­ten. Wenn dann tat­säch­lich nach Jahr­zehn­ten der Dis­kus­si­on über eine neue Brü­cke am Mit­tel­rhein eine wich­ti­ge grund­le­gen­de Ent­schei­dung gefällt wur­de – war­um soll­te man sie nicht mit einer Illus­tra­ti­on doku­men­tie­ren, die die Lese­rin­nen und Leser träu­men lässt? Ande­rer­seits wird der Jour­na­list mit einer sol­chen Dar­stel­lung zum Akteur: Kein Pla­nungs­bü­ro, kein Bau­amt hat die­se Ent­wür­fe gemacht, die Kos­ten unab­seh­bar, die Rea­li­sie­rung in jedem Fall frag­lich. Ent­spre­chend als „KI-gene­riert“ zu kenn­zeich­nen sind die­se Bil­der daher allemal.

    fashion photo of a young woman centered straight shot photo shot on Canon EOS R3 f1.8/135 mm of a woman dressed in Gucci, wearing an intricate royal blue dress, natural lighting
    Illus­tra­ti­on: KI-gene­rier­t/­Mid­jour­ney­/­Schwar­ze. Prompt: sie­he Alt-Text.

    Eines mei­ner Lieb­lings­bil­der der KI, das einer Frau in Guc­ci-Kla­mot­ten (oben), lässt sich bei Fire­fly auch als „Refe­renz­bild“ für neue Krea­tio­nen fest­le­gen. Die Maschi­ne ana­ly­siert dann das Bild und nimmt grund­le­gen­de Erkennt­nis­se für eine neue Dar­stel­lung zum glei­chen Prompt auf. Das Ergebnis:

    Illus­tra­ti­on: KI-gene­rier­t/Ado­be Fire­fly 2 (Beta)/Schwarze.

    Die grund­le­gen­den Ele­men­te, Far­ben, Stim­mun­gen und Details neu auf­zu­neh­men, wird so zur neu­en Mög­lich­keit, ohne Model, Stu­dio, Schweiß und Trä­nen. Ande­rer­seits birgt die KI-Tech­nik die Gefahr, sich in den Tie­fen des Promp­tens zu ver­zet­teln. Und 100-pro­zen­tig authen­tisch wir­ken die Ergeb­nis­se wei­ter­hin nur per Zufall.

  • ChatGPT bekommt Augen: So liest die KI Fotos

    ChatGPT bekommt Augen: So liest die KI Fotos

    Da lädt jemand ein Han­dy­fo­to einer Zeich­nung von einer Kon­fe­renz­ta­fel hoch, die KI macht dar­aus eine funk­tio­nie­ren­de Webseite:

    Jemand aus Ita­li­en lädt ein Foto eines Wohn­zim­mers hoch und bit­tet um Vor­schlä­ge fürs Ver­schö­nern. Die Maschi­ne schlägt unter ande­rem Akzent­far­ben vor, inspi­riert von ita­lie­ni­schem Dekor:

    Eine ver­wir­ren­de Ansamm­lung von Stra­ßen­schil­dern inter­pre­tiert ChatGPT: Ja, Du kannst hier ab 16 Uhr an einem Diens­tag für eine Stun­de parken:

    Ein kaum durch­schau­ba­res Schau­bild zur Insta­bi­li­tät Afgha­ni­stans inter­pre­tiert die Maschi­ne nüchtern-sachlich:

    Den Screen­shot eines Dash­boards baut ChatGPT fast 1:1 nach:

    Prü­fungs­auf­ga­ben der Mathe­ma­tik und Phy­sik, hoch­ge­la­den als Foto, beant­wor­te­te die Maschi­ne mit ent­spre­chen­den For­meln (aller­dings sind die Ant­wor­ten wohl nicht in Gän­ze kor­rekt, wie die Dis­kus­si­on unter dem Tweet zeigt):

    Für eine bestimm­te Innen­ar­chi­tek­tur und das dar­ge­stell­te Design fin­det die Maschi­ne offen­sicht­lich rich­ti­ger­wei­se den Begriff des „Athe­ni­schen Moder­nis­mus“ (ein­fach mal googeln):

    Ope­nAI selbst zeigt, wie ChatGPT durch Bil­der, Anlei­tung und Ein Foto vom Werk­zeug­kof­fer bei einer Hand­wer­ker­auf­ga­be hel­fen kann:

    Und dann war da noch die­ses Video einer ganz ande­ren Bau­stel­le, von Lex Fri­d­man mit Mark Zucker­berg, das erst­mals anschau­lich das viel bespro­che­ne und von vie­len schon wie­der tot­ge­sag­te Meta­ver­se zeigt – einen vir­tu­el­len Raum, an dem die Face­book-Schmie­de Meta feilt. Die Her­ren tra­gen eigent­lich schwe­re Bril­len und Kopf­hö­rer, doch die Tech­nik lässt die Gerä­te ver­schwin­den. Mimik und Spra­che wer­den künst­lich gene­riert, man wähnt sich in einem gemein­sa­men ver­dun­kel­ten Raum:

    Das neue ChatGPT Vision

    … konn­te ich noch nicht tes­ten, die Funk­ti­on wird erst nach und nach aus­ge­rollt. Vie­le wei­te­re Bei­spie­le zei­gen die Leis­tungs­fä­hig­keit, aber auch die Feh­ler. Ope­nAI selbst hat in einem Papier bereits unter­sucht, wel­che Gefah­ren von der neu­en Seh­fä­hig­keit der Maschi­nen aus­ge­hen kön­nen. Sie rei­chen von falsch erkann­ten gif­ti­gen Pil­zen bis zur Befeue­rung von Kli­schees und Vorurteilen.

    Und noch eine Funk­ti­on wird bei ChatGPT gera­de popu­lär: die Fähig­keit, gespro­che­ne Prompts zu erken­nen und gespro­chen zu beant­wor­ten. Das ist zwar mit Blick auf die alten Damen Ale­xa und Siri kei­ne Meis­ter­leis­tung mehr, in Ver­knüp­fung mit KI-Leis­tun­gen im Hin­ter­grund aber für vie­le eben­so kras­ses Neuland.


    Vie­len Dank fürs Lesen von Mar­cus Schwar­zes News­let­ter! Die­ser Post ist öffent­lich, also zögern Sie nicht, ihn zu teilen.


    Mehr zur rasan­ten Ent­wick­lung der künst­li­chen Intel­li­genz bie­tet das Brie­fing Frank­fur­ter All­ge­mei­ne Pro D:ECONOMY. Dar­in auch der „Prompt der Woche“ mit bis­her zwei Bei­trä­gen von mir:

  • Wie man dem Sparringspartner Wagnersche Kräfte beibringt
    (Illustration: Marcus Schwarze/Midjourney, KI-generiert)

    Wie man dem Sparringspartner Wagnersche Kräfte beibringt

    Die F.A.Z., Deutsch­lands ein­zi­ge Zei­tung mit drei Punk­ten in der Abkür­zung, nimmt freund­li­cher­wei­se mei­ne Diens­te in Anspruch; im „Prompt der Woche“ geht es in der ers­ten Fol­ge dar­um, wie mit­hil­fe von künst­li­cher Intel­li­genz (KI) ein hun­dert­sei­ti­ges PDF auf die Schnel­le zusam­men­ge­fasst, geröntgt und nach allen Regeln eines Sher­lock Hol­mes auf Herz und Nie­ren unter­sucht wer­den kann.

    So gibt es einen Ein­trag aufs Fleiß­kon­to und mei­ne Bit­te: Abon­nie­re zum Dank für so viel Eifer den neu­en F.A.Z. PRO D:ECONOMY News­let­ter! Der ist für drei Mona­te kos­ten­los und wird jeden Mitt­woch von Netz­öko­nom Hol­ger Schmidt und Johan­nes Win­kel­ha­ge ver­schickt. Ich darf dort häu­fi­ger einen „Prompt der Woche“ bei­steu­ern, eine Regie­an­wei­sung an die KI.

    Und weil das noch nicht genug ist, erklä­ren die Macher in die­sem Pod­cast, was F.A.Z. PRO D:Economy aus­macht (und mei­nen klei­nen Bei­trag dazu so wertvoll).

    Genug des Eigen­lobs für heu­te, hier der zwei­te Newsletter.

    Ich schrieb ja schon häu­fi­ger, dass die KI nur so gut ant­wor­tet, wie man es ihr bei­bringt. „Schreib einen Text im Stil von Franz Josef Wag­ner.“ Das funk­tio­niert schon heu­te, weil ChatGPT ganz offen­sicht­lich auch mit Tex­ten des „Bild“-Kolumnisten trai­niert und getriezt wur­de. Ich habe das hier aus­pro­biert. Und was soll man sagen: Es klappt, jeden­falls im Ansatz.

    Viel­leicht ein wenig lang das Gan­ze, „die Zeit wird es zei­gen“ hat Luft nach oben als intel­lek­tu­el­ler Hirn­riss, und gewiss wür­de der rich­ti­ge Franz Josef die Anna­le­na auch direkt anspre­chen und sei­ne Redak­ti­on sogar ihren Vor­na­men kor­ri­gie­ren; aber die Maschi­ne kann ja ver­kür­zen, was auch im Natu­rell des „Bild“-Menschen liegt. Was wohl der umtrie­bi­ge Ver­le­ger und KI-Fan Mathi­as Döpf­ner dazu sagt? Aber das ist, wie Kipling nie gesagt oder geschrie­ben hat, eine ande­re Geschichte.

    Die Maschine widerspricht

    Doch habt ihr die Vor­be­mer­kung der KI in die­sem tja, ver­gnüg­li­chen Expe­ri­ment gele­sen? Sie wagt den Wider­spruch! „Der Schreib­stil ent­spricht nicht den jour­na­lis­ti­schen Kri­te­ri­en, die Sie bevor­zu­gen, wie Neu­tra­li­tät und eine stren­ge Fokus­sie­rung auf Fak­ten.“ Und die Maschi­ne wagt, das offen­bar Unmög­li­che zu fra­gen: Möch­ten Sie den­noch, dass ich einen Text in die­sem Stil verfasse?

    Hin­ter­grund ist die­se eine Fein­ein­stel­lung, die man bei ChatGPT hin­ter­le­gen kann: „Benut­zer­de­fi­nier­te Anwei­sun­gen“ wer­den im Menü mit den drei Punk­ten hinterlegt.

    Fort­an reagiert die Maschi­ne etwas bes­ser auf mei­ne Prompts, weil sie nun bes­ser weiß, was ich von ihr erwar­te. Das ist zwar auch kein Garant gegen Gaga-Gequat­sche, aber aus dem 14-jäh­ri­gen KI-Prompt­prak­ti­kan­ten wird so etwas schnel­ler ein 18-jäh­ri­ger Sparringspartner.

    Wag­ner jeden­falls könn­te von heu­te auf mor­gen abtre­ten und zugleich unsterb­lich wer­den. Was allen gefal­len könn­te: a) dem Ver­le­ger, der ein Gehalt ein­spart, b) dem Kolum­nis­ten, der end­lich nicht mehr mit Vor­gän­gen der Welt getriezt wer­den müss­te, und c) jenen Lese­rin­nen und Lesern, die aus rein pro­fes­sio­nel­ler Medi­en­be­ob­ach­tung (natür­lich) stets die Sicht­wei­sen Wag­ners ver­fol­gen müs­sen, um d) dem Volk aufs Maul zu schau­en. But that ist ano­ther story.

  • Wolf-Schneider-KI redigiert journalistische Texte

    Wolf-Schneider-KI redigiert journalistische Texte

    Wer für Redak­tio­nen oder PR-Abtei­lun­gen arbei­tet, kennt das müh­sa­me Schrei­ben eines guten Tex­tes: Ein Kol­le­ge oder eine Kol­le­gin über­ar­bei­tet den Bei­trag, stellt Fra­gen zu unkla­ren For­mu­lie­run­gen und kor­ri­giert Recht­schrei­bung und Gram­ma­tik. Am Ende wird der Text von einer Che­fin vom Dienst (CvD) gele­sen. In Zukunft könn­ten die­se bei­den Rol­len weg­fal­len oder zumin­dest tech­ni­sche Unter­stüt­zung erhal­ten, denn die künst­li­che Intel­li­genz (KI) über­nimmt nun das Korrekturlesen.

    In mei­nem Fall ist das seit ein paar Mona­ten Wolf Schnei­der. Der im Novem­ber ver­stor­be­ne Aus­bil­der für gute Spra­che ist Namens­ge­ber der KI der Repor­ter­fa­brik in Ber­lin. Die Jour­na­lis­ten­schu­le hat sich die Namens­rech­te gesi­chert und in einem Team um Cordt Schnib­ben (ehe­mals Redak­teur beim „Spie­gel“) inner­halb der letz­ten fünf Mona­te die­se künst­li­che Intel­li­genz ent­wi­ckelt. Ich durf­te am lau­fen­den Beta­test der Maschi­ne teilnehmen.

    In den letz­ten Mona­ten hat die Wolf-Schnei­der-KI (WSKI) fast jeden mei­ner Tex­te über­ar­bei­tet, auch für die­sen News­let­ter. Ich habe mei­nen Text in ein Fens­ter kopiert und die WSKI hat den ver­bes­ser­ten Text im benach­bar­ten Fens­ter geschrie­ben. Das ist in Sekun­den erle­digt. Hier ein Bei­spiel eines Tex­tes, der nicht von mir stammt, der Pres­se­mit­tei­lung der Reporterfabrik:

    Jeder Text lässt sich ver­bes­sern, auch die Pres­se­mit­tei­lung der Repor­ter­fa­brik. Anschlie­ßend ergänzt die Maschi­ne eine Ana­ly­se. (Screen­shot: Schwarze)

    Die Schreib­re­geln von Schnei­der sind legen­där. Sie ver­bie­ten Füll­wör­ter und set­zen auf kur­ze Sät­ze. Schnei­der emp­fiehlt Ein-Sil­ben-Wör­ter. „Wir sind aus Ein­sil­bern: Hand und Fuß, Kopf und Blut.“ So sagt er es in einem Kurs der Repor­ter­fa­brik. Zwei­sil­bi­ge Wör­ter sind die zweit­bes­te Wahl. Kei­ne Schach­tel­sät­ze, son­dern vor allem Haupt­sät­ze. „Ein­ge­pferch­te Neben­sät­ze sind immer schlecht.“ Der Text soll­te laut vor­ge­le­sen gut ins Ohr gehen. „Wir schrei­ben immer für die Ohren.“

    Die WSKI hat vie­le die­ser Regeln über­nom­men. Schon bei den ers­ten Tests hat die Maschi­ne mei­ne Tex­te gekürzt und Pas­siv-Kon­struk­tio­nen in akti­ve Sät­ze umgewandelt.

    Ein Paradigmenwechsel, oder?

    Für Redak­tio­nen bedeu­tet die Sprach-KI einen Para­dig­men­wech­sel, oder wie Wolf Schnei­der sagen wür­de, einen Schwenk. Spra­che wird wie­der mehr zum Werkzeug.

    In der neu­es­ten Ver­si­on der KI erhält das Hand­werk des Jour­na­lis­mus zusätz­li­che Unter­stüt­zung durch eine aus­führ­li­che Text­ana­ly­se. Wolf Schnei­ders Nach­fah­re gibt Anre­gun­gen, was im Text noch ergänzt wer­den könn­te. Bei vie­len Sät­zen kön­nen alter­na­ti­ve For­mu­lie­run­gen ange­zeigt wer­den, und für jedes Wort kön­nen alter­na­ti­ve Wör­ter vor­ge­schla­gen wer­den. Nach­dem die Maschi­ne einen Text über­ar­bei­tet hat, kann man außer­dem abru­fen, wel­che Wolf-Schnei­der-Regel dahintersteckt.

    Die Wolf-Schnei­der-KI befin­det sich der­zeit noch in der Beta­pha­se. Die gemein­nüt­zi­ge Repor­ter­fa­brik bie­tet Test-Usern die Mög­lich­keit, das Tool kos­ten­los aus­zu­pro­bie­ren. Inter­es­sen­ten kön­nen per E‑Mail Zugang erhal­ten, indem sie sich an wski@correctiv.org wenden.

    Nach dem Beta­test wird die KI vor­aus­sicht­lich fünf Euro im Monat kos­ten, wie Schnib­ben in einem Gespräch ange­deu­tet hat.

    Fazit

    Mein Urteil über das Werk­zeug: Es ist aus dem All­tag des Tex­tens kaum mehr weg­zu­den­ken. Zu neun­zig Pro­zent sind die über­ar­bei­te­ten Sät­ze bes­ser als der Ursprung. Aber: Nicht bei allen redi­gier­ten Din­gen gehe ich mit. Da habe ich wei­ter­hin das letz­te Wort. Wenn etwa die Maschi­ne zu Beginn des Beta­tests aus den „Schü­le­rin­nen und Schü­lern“ die „Schüler*innen“ macht, wür­de ver­mut­lich auch der ech­te Wolf Schnei­der wider­spre­chen – und dar­aus schlicht „Schü­ler“ machen.

    Das wider­spricht wie­der­um mei­nem Sprach­emp­fin­den und im übri­gen auch den Regeln, die man­che Redak­ti­on sich selbst auf­er­legt hat. Ich bin gespannt, was die Maschi­ne aus dem vor­he­ri­gen, kur­siv gesetz­ten Absatz macht. Hier das Ergebnis.

  • So entlarvt eine KI zur Gesichtserkennung massenhafte Betrugsversuche

    So entlarvt eine KI zur Gesichtserkennung massenhafte Betrugsversuche

    Seit eini­gen Wochen ver­fol­gen mich asia­ti­sche Schön­hei­ten. Nicht die­se brüs­ken, dürf­tig beklei­de­ten Damen, die der Spam­fil­ter ohne­hin aus­sor­tiert. Die ver­meint­li­chen Damen sind stets züch­tig geklei­det und zumeist an die 20 Jah­re jün­ger. Sie schrei­ben mir auf Insta­gram und auf Whats­App per direk­ter Nach­richt sub­ti­le Bot­schaf­ten. „War­um wirst Du mir dau­ernd hier auf Ins­ta emp­foh­len?“, fragt eine Amra auf Eng­lisch. „Hal­lo, bist Du der Typ aus dem Busi­ness Mee­ting in Tam­pa?“, erkun­digt sich eine Cata­li­na aus Flo­ri­da. „Ich habe Dein Land­schafts­fo­to gese­hen, tol­les Bild!“, fin­det eine Lee aus London.

    Nun wer­den mei­ne direk­ten Nach­rich­ten auf Insta­gram in einem Ord­ner „Nach­rich­ten­an­fra­gen“ abge­legt, den ich sel­ten auf­su­che. Benach­rich­ti­gun­gen dazu sind aus, so herrsch­te lan­ge Zeit Ruhe im Kar­ton. Bei Whats­App wer­den sol­che Bot­schaf­ten nor­ma­ler­wei­se von mir gemel­det und die Absen­der blockiert.

    Doch neu­gie­rig, wie ich bin, bin ich dann doch mal auf die Anfra­gen auf Insta­gram zum Schein ein­ge­gan­gen. Wor­auf war die Masche aus?

    Quatschen mit Amra, Catalina und Lee

    So quatsch­te ich über Tage mit Amra, Cata­li­na und Lee, schnell kamen ein paar wei­te­re ver­meint­li­che Damen hin­zu, die mir zuletzt ihren Kon­takt ange­bo­ten hat­ten. Ich ent­deck­te wun­der­ba­re Lofts in Man­hat­tan und Restau­rants in Malay­sia, foto­gra­fiert wur­den edle Mahl­zei­ten und noch öfter das eige­ne Spiegelbild.

    Man ver­liert übri­gens schnell den Über­blick, wer von denen wel­chen Beruf hat und ob man schon gefragt hat, aus wel­cher Stadt sie kommt. Fragt man in so einem Chat ein zwei­tes Mal nach der Her­kunft, so deu­tet der Ton­fall der Ant­wort auf Ent­rüs­tung wegen des Man­gels an Auf­merk­sam­keit, für euch ausprobiert.

    Erstaun­li­cher­wei­se ver­füg­ten alle angeb­li­chen Damen aus­weis­lich ihrer Fotos über einen gewis­sen Reich­tum. Davon zeug­ten Bil­der tol­len Essens in teu­ren Restau­rants, Guc­ci- und Dior-Hand­ta­schen und ein Besuch auf der Fer­ra­ri-Mes­se in Abu Dha­bi. Sel­ten zeig­ten die Damen viel Haut, das wäre zu pro­fan. Höchs­tens mal etwas Fit­ness­stu­dio. Und so gut wie immer reagier­ten die Damen fast belei­digt, wenn man nicht sofort auf eine Nach­richt ant­wor­te­te, Zeit­zo­nen hin oder her.

    Schneller Wechsel von Instagram auf WhatsApp

    Erst ver­mu­te­te ich künst­li­che Intel­li­genz im Ein­satz – als ich bemerk­te, dass die Ant­wor­ten mei­ne Recht­schreib­feh­ler imi­tier­ten. Dann ver­quatsch­te sich eine der Angrei­fe­rin­nen und frag­te über­mü­tig, was ich denn eigent­lich dau­ernd mit ihren Freun­din­nen zu bespre­chen hät­te? Häu­fig woll­ten die Damen schnell auf Whats­App wech­seln, das wäre ja irgend­wie per­sön­li­cher. Nur auf mei­ne lis­ti­ge Fra­ge, ob wir mal tele­fo­nie­ren möch­ten, reagier­te kei­ne der Befrag­ten wie gewünscht.

    Zwei­mal lenk­ten die Gesprächs­part­ne­rin­nen das The­ma auf Kryp­to­wäh­run­gen, die eine frag­te rund­her­aus nach einer „klei­nen“ Inves­ti­ti­on von 500 Dol­lar, ihr Onkel sei Ban­ker und bekom­me häu­fi­ger mal einen guten Tipp; Sie wis­sen schon, der Short-Sel­ling-Han­del. Da glaub­te ich end­lich zu wis­sen, wor­auf die Angrei­fe­rin­nen letzt­lich aus waren. Doch erstaun­li­cher­wei­se waren die ande­ren Damen nicht an mei­nen Kryp­to­wäh­rungs­kennt­nis­sen inter­es­siert, als nun ich die Gesprä­che zum Test dar­auf zu len­ken versuchte.

    Alle zwölf Damen waren Fake

    Den wah­ren Grund für die mas­sen­haf­ten Kon­takt­an­bah­nun­gen habe ich am Ende nicht her­aus­ge­fun­den. Nur dass alle zwölf Damen Fake-Pro­fi­le waren und sind, das hat mir eine Maschi­ne der künst­li­chen Intel­li­genz (KI) bewie­sen: Bei face​check​.id kann man ein Por­trät einer Per­son hoch­la­den, der Dienst fin­det dann per Gesichts­er­ken­nung ähn­lich aus­se­hen­de Social-Media-Pro­fi­le dazu. Gesucht wird dabei nicht nach der iden­ti­schen Bild­da­tei wie bei Goog­le Bil­der, son­dern nach bio­me­tri­schen Merk­ma­len, die die KI in einer Daten­bank gespei­chert hat.

    Und sie­he da: Plötz­lich heißt die Guc­ci-Cata­li­na auch mal Jini und wohnt statt in Flo­ri­da in Los Ange­les; mit dem glei­chen Gesicht gibt es 17 Lin­ke­dIn- und zehn Twit­ter-Accounts mit unter­schied­li­chen Namen. Die Kryp­to­wäh­rungs-Amra ist mit dem­sel­ben Bild auf Twit­ter mal als Phyl­lis, Luca und Huang-Deng unter­wegs, gilt auch dort aus­weis­lich ihrer Posts als Fach­frau für Kryp­to­koh­le. Nur Kom­men­ta­re von Freun­din­nen oder Freun­den fin­det man dann sel­ten, Schön­heit macht wohl ein­sam. Den pro­mi­nen­tes­ten Chat erleb­te ich mit Erin, die auch schon mal Celia heißt und namens einer Mode­mar­ke aus Korea mit einem Account 103.000 Fol­lower zählt.

    Vertrauen erschleichen, Kompromat erlangen

    Was hat es letzt­lich mit sol­chem Scam, Betrug also, auf sich? Ich kann nur ver­mu­ten: Es geht dar­um, Ver­trau­en auf­zu­bau­en und zu erschlei­chen. Mög­li­cher­wei­se woll­te jemand irgend­wann kom­pro­mit­tie­ren­de Ant­wor­ten von mir pro­vo­zie­ren, um sie anschlie­ßend für eine Erpres­sung zu ver­wen­den. Der gesun­de Men­schen­ver­stand kann bei so viel Schön­hei­ten schließ­lich schon mal ver­lo­ren gehen.

    Dass es sich um eine kon­zer­tier­te Akti­on han­del­te, beweist ein ande­rer Umstand: Als ich zwei der Damen mit den gefun­de­nen wei­te­ren Social-Media-Pro­fi­len kon­fron­tier­te, reagier­te die eine zickig (oder bockig?), „Ich bin ich“, und die ande­re blo­ckier­te mich sofort. Fort­an reagier­te­für eine Wei­le die gan­ze Ban­de nicht mehr. Offen­bar waren die fal­schen Freun­din­nen auch unter­ein­an­der gut vernetzt.

    Persönlichkeitsrechte?

    Ob der Dienst Face​check​.id in Euro­pa zuläs­sig ist oder nach Ver­ab­schie­dung des euro­päi­schen KI-Acts noch ist, steht auf einem ande­ren Blatt. „Nur für Lern­zwe­cke“ schreibt der Betrei­ber Sen­ti­ent Labs aus Indo­ne­si­en. Man rühm­te sich zuletzt, 400.000 Fotos und Pro­fi­le von Hei­rats­schwind­lern und Lie­bes­be­trü­gern erfasst zu haben. Ins­ge­samt soll die Maschi­ne 550 Mil­lio­nen Bil­der ken­nen. Wie das mit dem Per­sön­lich­keits­recht oder dem Ver­wer­tungs­recht von Fotos ein­her­geht, ist schlei­er­haft. Und war­um es von Unter­neh­mens­chef Lee Chong offen­bar kein öffent­li­ches Bild gibt, wun­dert auch ein wenig. Eine Home­page der Fir­ma fand ich nicht.

    Eine weit grö­ße­re Gesich­ter­da­ten­bank namens Cle­ar­view AI mit 30 Mil­li­ar­den Bil­dern wur­de laut einem Bericht der „New York Times“ mitt­ler­wei­le in meh­re­ren euro­päi­schen Län­dern sowie in Kana­da und Aus­tra­li­en ver­bo­ten. Öffent­lich zugäng­lich ist der Dienst nicht, Straf­ver­fol­gungs­be­hör­den in den USA nut­zen ihn – unter ande­rem auch in Däne­mark, Finn­land und Frank­reich. Auch Inter­pol soll den Dienst 320-mal ein­ge­setzt haben. In Deutsch­land hat der Ham­bur­ger Daten­schutz­be­auf­trag­te den Dienst als Ver­stoß gegen die Daten­schutz­grund­ver­ord­nung ein­ge­schätzt. Ita­li­en ver­häng­te eine Geld­stra­ße von 20 Mil­lio­nen Euro. Zuletzt mach­te das Unter­neh­men mit einem Ein­satz im rus­si­schen Krieg in der Ukrai­ne von sich reden: Ukrai­ni­sche Mili­tärs iden­ti­fi­zier­ten damit Tote und rus­si­sche Überläufer.

    Gleiche Bilder, gleicher Film

    Gera­de hat wie­der eine unbe­kann­te Lin­da elf mei­ner Bil­der auf Insta­gram durch­ge­likt, es geht schon wie­der los. Ihre eige­nen Fotos deu­ten auf ein sor­gen­frei­es Leben. Komisch nur, die angeb­li­che Dame ähnelt laut Gesich­ter­ken­nungs-KI zum Ver­wech­seln dem Model Vero­ni­ka Cere­da aus Kiew. Und merk­wür­dig – bei der pro­mi­nen­te­ren, augen­schein­lich authen­ti­schen Dame mit Zehn­tau­sen­den Fans taucht das glei­che Bild auf einem Schim­mel rei­tend durchs Was­ser auf. Eine Auf­nah­me von Frau Sere­da aus Dubai im mint­grü­nen Kos­tüm mit wei­ßer Hand­ta­sche kann Lin­da eben­so vor­wei­sen. Und sogar das Video von ihr unter Was­ser mit blau­en Flos­sen gibt es in bei­den Profilen.

    Zufäl­le gibt’s.

    Wenn Sie die Fake-Ent­lar­vung ein­mal selbst aus­pro­bie­ren möch­ten: Ich fol­ge nun bis auf Wei­te­res meh­re­ren die­ser Fake-Damen auf Ins­ta. Mei­ne Fol­lo­wings sind öffent­lich. Und wun­dern Sie sich nicht über man­che Fol­lo­wings, die anders als die hier genann­ten Kon­ten nie­de­re Instink­te anspre­chen. Eine gewis­se Sarah Jor­dan ist ganz offen ein Fake mit sehr frei­zü­gi­gen Bil­dern. Der Account ist kom­plett KI-gene­riert. „Made in Australia“.

    Das Kon­to zählt 377.000 Follower.

    • Zum Schutz der rea­len Per­so­nen, deren Bil­der hier offen­sicht­lich für Betrugs­ver­su­che miss­braucht wer­den, habe ich in die­sem Bei­trag auf Screen­shots der von face​check​.id gefun­de­nen Fake-Pro­fi­le ver­zich­tet; statt­des­sen lud ich dort ein Bild von mir selbst hoch und ließ die Maschi­ne nach mei­nem Gesicht suchen.
  • Neue Maschinen unter der KI-Motorhaube

    Neue Maschinen unter der KI-Motorhaube

    Zum Bei­spiel Dan­te AI: Neben GPT‑4 von Ope­nAI und dem Vor­gän­ger­mo­dell GPT‑3.5‑Turbo kön­nen neu­er­dings auch das Open-Source-Modell Fal­con LLM und das Modell LlaMA 2 von Face­book-Anbie­ter Meta hin­ter­legt werden.

    Zum Bei­spiel Per­ple­xi­ty AI: Hier kann statt GPT‑4 von Ope­nAI wahl­wei­se auch das Modell Clau­de 2 oder ein eige­nes Modell von Per­ple­xi­ty ein­ge­rich­tet werden.

    Mal eben die Maschi­ne wech­seln: Bei Dan­te AI ste­hen mitt­ler­wei­le meh­re­re Sprach­mo­del­le zur Aus­wahl. (Screen­shot: Schwarze)

    Hin­zu kommt, dass GPT‑4 nach Beob­ach­tung von Fach­leu­ten zuletzt an Qua­li­tät ein­ge­büßt hat. So konn­ten Anwalts­kanz­lei­en vor vier, fünf Mona­ten der Maschi­ne durch­aus brauch­ba­re Vor­la­gen fürs rechts­kon­for­me Inter­net-Impres­sum oder eine Daten­schutz­er­klä­rung ent­lo­cken. Mitt­ler­wei­le pro­du­ziert GPT‑4 häu­fi­ger Müll.

    Auch mir erging es zuletzt häu­fi­ger so: Einst gut funk­tio­nie­ren­de Prompts fürs Zusam­men­fas­sen von Sach­ver­hal­ten in mei­nem, der Maschi­ne antrai­nier­ten Duk­tus las­sen nun häu­fi­ger Anfor­de­run­gen offen. Es half, auf GPT‑3.5 statt 4 zu wechseln.

    GPT‑4 mit nachlassender Qualität

    Die nach­las­sen­de Qua­li­tät von GPT‑4 bestä­tigt in Tei­len eine Stu­die der Uni­ver­si­tä­ten Stan­ford und Ber­ke­ley: In drei von vier getes­te­ten Fel­dern nahm die Leis­tung zwi­schen März und Juni ab. Konn­te die Maschi­ne im März noch 97,6 Pro­zent an Prim­zah­len erken­nen, waren es im Juni nur noch 2,4 Prozent.

    Die KI-Welt wird somit komplizierter.

    Nun könn­te man schluss­fol­gern, dass die Viel­zahl aus Gagafra­gen aus aller Welt bei GPT‑4 in den ver­gan­ge­nen Mona­ten für Ver­wir­rung und Durch­ein­an­der sorgt. Doch hat Open AI stets betont, dass die Chat­ver­läu­fe aus Daten­schutz­grün­den nicht in das Modell ein­flie­ßen. Wahr­schein­li­cher ist, dass die Macher ihr Modell wei­ter­ent­wi­ckeln und vor allem Rechen­zeit pro Anfra­ge ein­spa­ren – nicht immer zum Besten.

    Wie einst in der Schrau­ber­sze­ne für Autos tunen heu­te Enthu­si­as­ten ihre zusam­men­ge­klick­ten KI-Maschi­nen, bau­en etwa ein ande­res Sprach­mo­dell als GPT‑4 als neu­en Motor ein. Wie sich die Moto­ren unter­schei­den, erschließt sich bei den merk­wür­di­gen Namen wie LlaMA und Fal­con aller­dings nur Spe­zia­lis­ten. Schrau­ben dann zusätz­lich die Macher von GPT‑4 im Hin­ter­grund an den Para­me­tern, ist guter Rat teu­er: War­um schwankt die Qua­li­tät der Antworten?

    Die Inge­nieu­re bei Ope­nAI hal­ten sich mit Ant­wor­ten dazu eher zurück. Doch scheint der Markt sich neu zu ori­en­tie­ren: Der Traf­fic auf der Web­sei­te ope​nai​.com ging laut Simi­lar­web von Mai (1,9 Mil­li­ar­den Visits) bis Juli (1,5 Mil­li­ar­den) deut­lich zurück.

    Wer will, baut sich viel­leicht lie­ber auf dem eige­nen Rech­ner eine eige­ne KI nach, dafür gibt es die Anwen­dung GPT4All. Auch hier kön­nen GPT‑4 und 3.5, aber auch LlaMA 2 und ande­re Model­le hin­ter­legt werden.

    Wer sind Sie und was wollen Sie?

    Hin­zu kom­men bei den kom­mer­zi­el­len Diens­ten Per­ple­xi­ty und Dan­te AI vor­zu­ge­ben­de Ran­dum­stän­de, an denen sich die jewei­li­gen KIs ori­en­tie­ren sol­len. Beim her­kömm­li­chen GPT‑4 füllt man dafür zwei Fel­der aus, in denen man zunächst die eige­ne Rol­le („Ich bin CEO und brau­che kla­re, poin­tier­te Ant­wor­ten, auch Hin­wei­se auf mög­li­che feh­ler­haf­te Ent­schei­dun­gen“) und dann die Wün­sche an die Ant­wor­ten for­mu­liert („Genaue Ant­wor­ten, erfin­de nichts“).

    Bei Per­ple­xi­ty soll man ein­ma­lig ein­stel­len, wer man ist, wo man hin­will, was man sonst so macht. (Screen­shot: Schwarze)

    Bei Per­ple­xi­ty AI wird das aus­führ­li­cher. Die Maschi­ne möch­te Infos über den eige­nen Stand­ort, in wel­cher Spra­che zu ant­wor­ten ist, eige­ne Hob­bys und Inter­es­sen, den Beruf und künf­ti­ge Ziele.

    Per­ple­xi­ty gibt dadurch genaue­re Ant­wor­ten, die auf den Fra­gen­den bes­ser abge­stimmt sind. Hin­zu­schalt­bar ist außer­dem ein „Copi­lot“: Dann ant­wor­tet Per­ple­xi­ty nicht ein­fach drauf­los, son­dern stellt durch­aus intel­li­gen­te Ver­ständ­nis­fra­gen. Oder schaut im Inter­net nach.

    Das Nut­zer­inter­face ist dabei gewöh­nungs­be­dürf­tig. So wird fürs Zusam­men­fas­sen eines län­ge­ren Tex­tes zurück­ge­fragt, wel­chen the­ma­ti­schen Schwer­punkt die Zusam­men­fas­sung haben soll – und macht auch gleich kom­ma­se­pa­rier­te Vor­schlä­ge. Will man dann zwei, drei Schwer­punk­te aus­wäh­len, ver­schwin­den sie beim Ankli­cken und müs­sen manu­ell ein­ge­tippt wer­den – lästig.

    Die Maschine schaut selbst im Internet nach

    Inter­es­sant ist Per­ple­xi­ty aber auch des­halb, weil es von Haus aus Inter­net­re­cher­chen zum Beant­wor­ten anstel­len kann. Die Quel­len wer­den ange­ge­ben. Auch ist es mög­lich, eine Datei hoch­zu­la­den und gezielt Fra­gen dazu zu beant­wor­ten. „Wor­um geht es in dem Video?“ – die Fra­ge samt benann­ter You­Tube-Adres­se bringt die Maschi­ne zu einer ordent­li­chen Zusam­men­fas­sung; wenn­gleich sie auch Din­ge aus ande­ren Quel­len hin­ein­mengt, dies aber meist trans­pa­rent macht.

    Per­ple­xi­ty kos­tet wie GPT‑4 20 Dol­lar im Monat. Vor­ein­ge­stellt ist die Nut­zung der eige­nen Chat­ver­läu­fe durch das Unter­neh­men dahin­ter, um das Per­ple­xi­ty-Sprach­mo­dell zu ver­bes­sern. Das kann man abschalten.

    Ins­ge­samt bie­tet Per­ple­xi­ty über GPT‑4 hin­aus­ge­hen­de Funk­tio­nen wie die Alter­na­ti­ve Clau­de 2 als Sprach­mo­dell, das viel län­ge­re Prompts erlaubt, und die schnel­le Live-Suche auf Inter­net­sei­ten. Beim alten GPT‑4 gelingt Ver­gleich­ba­res nur mit Plugins.

    A car in a workshop with its hood open. A female child as a mechanic stands in front of it, tool in hand, she looks into the car's motor, in the process of replacing the conventional engine with a futuristic AI unit. Medium: Photography. Style: Style: Hyper-realism, inspired by the work of Robert Bechtle. Lighting: Natural light filtering through the garage windows. Colors: Earth tones, grays, and metallic hues. Composition: Nikon D850, Nikkor 85mm f/1.4G lens, Resolution 45.7 megapixels, ISO sensitivity: 25,600, Shutter speed 1/200 second.
    Illus­tra­ti­on: KI-gene­rier­t/­Mid­jour­ney­/­Schwar­ze. Prompt: sie­he Alt-Text.

    Sind Per­ple­xi­ty und Dan­te damit Aspi­ran­ten auf die Nach­fol­ge oder Wach­ab­lö­sung von GPT‑4? Nein, dazu feh­len ihnen weit­ge­hend die eige­nen Trai­nings­da­ten. Doch ist der simp­le Aus­tausch des Motors auch von frem­den Anbie­tern unter der Hau­be etwas, das ChatGPT nicht bie­tet. Und dann ist auch noch die Funk­ti­on „Advan­ced Data Ana­ly­sis“ bei GPT‑4, die das Hoch­la­den eige­ner Doku­men­te erlaubt.

    Der Markt wird unübersichtlich

    Die Funk­tio­na­li­tä­ten der KIs wer­den wei­ter rasant erwei­tert. Der Markt wird für Lai­en zuse­hends unüber­sicht­lich. Rund 7.500 KI-Diens­te ver­sam­melt die „Über­sicht“ namens There’s an AI for that. Was da jeweils unter der Motor­hau­be steckt und Erfolg hat, muss der Markt sich­ten und richten.

    Und da haben wir bis­her nicht über wei­ter­hin agie­ren­de gro­ße alter­na­ti­ve Diens­te wie von Goog­le („Bart“ und „Duet AI“) und der angeb­li­chen euro­päi­schen Alter­na­ti­ve Aleph Alpha aus Hei­del­berg gespro­chen. Für Duet AI habe ich mei­ne Frei­schal­tung zum Tes­ten bean­tragt, bei Aleph Alpha befand ich die Ant­wort­qua­li­tät nach einem Test auf deren Spiel­wie­se nicht kon­kur­renz­fä­hig. Die Ansprü­che steigen.