Das vielleicht berühmteste oder zumindest langlebigste Meme des Internets heißt „Distracted Boyfriend“ und zeigt einen jungen Mann, der mit seiner Partnerin die Straße entlanggeht; als beide einer anderen Frau begegnen, schaut er ihr lüstern hinterher, seine Freundin blickt ihn dabei ungläubig-irritiert an. Die inszenierte Aufnahme stammt von dem spanischen Fotografen Antonio Guillem, aufgenommen hat er sie 2015 in der katalanischen Stadt Girona.
Zum Meme, einem viralen Internetphänomen also, wurde es auf Twitter im Jahr 2017, als jemand die Partnerin als „Kapitalismus“ betitelte, den Mann als „die Jugend“ und die Fremde als „Sozialismus“. Seither gab es Tausende Varianten dieses Bildes, in dem Untreue oder die Abkehr vom Bisherigen versinnbildlicht wurden. (Bevor jemand fragt: Ich habe die Nutzungsrechte an dem Bild für diesen Beitrag ordentlich bei iStockPhoto gekauft.)
Nun entstand daraus ein Video. X‑Nutzer @fofrAI hat die gleiche Szene mithilfe der Software Stable Video Diffusion so animiert, …
… dass die Fremde aus dem Bild läuft, der Mann ihr weiter hinterherschaut und der missbilligende Blick der Partnerin länger anhält. Es ist nur eine kurze Szene. Doch wirkte sie vor ein paar Wochen wie der Startschuss zur Animation weiterer Memes.
So animiert Esteban Orozco das berühmte lächelnde Mädchen vor einem abbrennenden Haus in lodernden Flammen.
Auch das „Success Kid“, ein kleiner Junge im grün-weißen Pullover mit geballter Faust, wird durch die KI zu neuem Leben erweckt. Das Meme stammt aus dem Jahr 2007.
Die Qualität der Sequenzen hat noch Luft nach oben. Die KI verändert die Gesichtszüge teilweise unnatürlich. Und die Kürze der Szenen deutet daraufhin, wie viel Aufwand, Energie und Kosten der Spaß verursacht.
Doch braucht es nicht viel Vorstellungskraft, was die Animationsprogramme in den nächsten Monaten und Jahren erschaffen: Aus Schnappschüssen werden real wirkende Filmchen. Ob Mona Lisa oder der Times-Square-Kuss eines Marinesoldaten, Albert Einsteins herausgestreckte Zunge oder die Beatles auf dem Zebrastreifen auf der Abbey Road – sie alle dürften von Enthusiasten künftig neue Bewegungen eingehaucht bekommen.
Wo das hinführt, zeigt eine Werbung von Coca-Cola, die das Werk unbescheiden als Masterpiece bezeichnet und berühmte Bilder in einer Ausstellung animiert. Wie ein „Making of“ der Szenen in einem weiteren Video zeigt, kam allerdings beileibe nicht der gesamte Clip aus der künstlichen Intelligenz – es war zusätzlich hoher Aufwand und viel menschliche Nachbearbeitung mittels VFX-Technik nötig. Das Video blendet zu Beginn ein, bei welcher Nachbearbeitung die KI unterstützte.
Die Vorstellungskraft der Konzerne reicht bereits weit darüber hinaus. Denn nicht nur die Herstellung von Videos, auch deren Analyse wird umgekehrt weiterer Gegenstand der KI. Das hat Google vergangene Woche gezeigt. Der Konzern schummelte allerdings bei der Vorstellung seiner künftigen KI Gemini Ultra in einem spektakulären Video. Es wirkt, als hätten die PR-Heinis bei Google den KI-Jüngern beim jüngsten Armdrücken im neuen Google Visitor Experience-Bereich gezeigt, wo der Hammer hängt:
Kurz nacherzählt: Der Vorstand von OpenAI hat Sam Altman als Chef des Unternehmens überraschend entlassen und ebenso Mitgründer Greg Brockman. Beide heuern nun beim großen Geldgeber Microsoft an.
Und mehr als 500 von rund 700 Mitarbeitern bei OpenAI haben laut Kara Swisher, Tech-Journalistin in San Francisco, erklärt, den beiden folgen zu wollen, falls der Vorstand nicht zurücktritt und die beiden nicht zurückholt.
Die Instruktion an die Maschine zur Erfindung einer Witze-KI lautet:
Du bist Hauptgagschreiber für eine wöchentliche Sendung „Gestern-Show“. Deine Aufgabe ist es, fünf herausragende Witzvorschläge zu aktuellen Ereignissen zu kreieren. Zuerst fragst Du nach dem aktuellen Ereignis und bittest um eine Beschreibung. Danach entfaltest Du Deine Kreativität, treibst den Witz auf absurde Ebenen und krönst ihn mit einer Pointe. Du solltest einfallsreich, humorvoll sein und Witze liefern, die sowohl relevant als auch übertrieben sind. Alle Antworten werden auf Deutsch gegeben.
Derart angewiesen, schlug die KI einen Bot namens „Gagmeister Gestern“ vor. Und machte fünf Vorschläge für Witze:
Ach, die OpenAI-Geschichte! Perfekt für einen Gag. Also, stellen wir uns vor:1. Die Microsoft-Übernahme: "Haben Sie gehört? OpenAI hat Sam Altman und Greg Brockman gefeuert, und die sind direkt zu Microsoft. Das erklärt endlich, warum Microsofts neueste KI plötzlich anfängt, E-Mails mit 'Mit künstlichen Grüßen, Sam und Greg' zu unterschreiben!"2. Die Mitarbeiter-Rebellion: "Über 500 Mitarbeiter von OpenAI wollen ihren Chefs zu Microsoft folgen. Ich meine, das ist wie bei einem Konzert: Wenn die Band die Bühne verlässt, folgt das Publikum... nur dass in diesem Fall das Publikum aus lauter Programmierern besteht, die verzweifelt versuchen, ihre Bürostühle durch die Notausgänge zu schieben."3. Die Vorstandssitzung: "Der Vorstand von OpenAI hat eine Krisensitzung einberufen. Es ging drunter und drüber. Einer schlug vor, die KI um Rat zu fragen, aber dann erinnerten sie sich, dass die KI jetzt bei Microsoft arbeitet und wahrscheinlich nur antworten würde: 'Haben Sie versucht, sie aus- und wieder einzuschalten?'"4. Die neue Jobbeschreibung: "Sam Altman und Greg Brockman bei Microsoft – das ist wie wenn die Beatles sich aufgelöst hätten und John Lennon und Paul McCartney bei einer Hochzeitsband angefangen hätten. Statt 'Revolution' singen sie jetzt 'Für immer und ewig'."5. Die Zukunft von OpenAI: "Und was wird jetzt aus OpenAI? Sie suchen nach einem neuen CEO. Gerüchten zufolge steht ganz oben auf der Liste ein sehr talentierter Toaster mit WiFi-Anschluss. Er hat zwar keine Führungserfahrung, aber er macht hervorragende Toasts und hat eine ausgezeichnete Verbindung zu smarten Kühlschränken."
Befragt, welcher der beste dieser „Witze“ sei, nennt die Maschine jenen mit den Programmierern, die verzweifelt versuchen, ihre Bürostühle durch die Notausgänge zu schieben.
Die Vorstellung mag als inszenierte Darstellung durchaus für eine „Gestern-Show“ taugen – aber ist sie wirklich witzig? Der Versuch, sich so etwas von der Bilder-KI Midjourney zeichnen zu lassen, scheiterte übrigens, selbst mithilfe einer Prompt-Perfektionier-Maschine.
Eine Weile noch muss sich der bekannte Hauptautor einer namhaften Show von heute wohl noch keine Sorgen um seinen Job oder seinen empfehlenswerten und stets fehlerfreien Newsletter machen.
Oder beginnen, sie mit beispielhaften Witzen zu trainieren, damit die Maschine die Anatomie eines guten Witzes lernt. In einem Kurztest hatte die Maschine dann mit angefütterten Witzetweets etwas besser die gewünschte Sprache verstanden – aber an Peter und seine Kollegen reicht dieser digitale Bursche noch nicht heran. Für den Zugang zu dem Bot ist ein Bezahlabo von ChatGPT‑4 nötig.
Wer ist auf Facebook und Instagram am erfolgreichsten? Fanpage Karma, eine Anwendung von Meta, ermöglicht, das herauszufinden. Demnach war in diesem Jahr in Deutschland Fußballstar Cristiano Ronaldo auf Platz 1 mit diesem Post
zu seinem Einstand beim saudiarabischen Arbeitgeber AlNassr Club (übrigens mit einem Fehler beim markierten Instagram-Account des Klubs). 28 Millionen Reaktionen erzeugte der Beitrag, also Likes und Kommentare.
So geht das weiter bis sage und schreibe Platz 146. Die in Deutschland erfolgreichsten 146 Instagram-Posts des Jahres stammen von einem Fußballer in Riad.
Erst dann folgt eine halsbrecherische Mountainbike-Fahrt von Red Bull Deutschland, …
Anders als bei Ronaldo folgen nun durchaus andere Konten, doch zählt die Rangliste der Top 5000 Beiträge dieses Jahres 257-mal den Bartmann. Mit bürgerlichem Namen heißt der Herr Agrie Ahmad und stammt aus Mannheim. Gestartet ist er 2014 mit Bartpflegetipps – und heute Influencer mit Millionen Followern auf diversen Kanälen. Zu Hause ist der Bartmann inzwischen in Dubai in den Vereinigten Arabischen Emiraten.
Ein Fußballer in Riad und ein Barbier mit abgelehntem Wikipediaeintrag in den Emiraten. Das ist die Élite im deutschen Teil von Facebook und Instagram.
In der Rubrik Politik: auf Platz 1 bis 15 Posts von AfD-Accounts.
Relevanz? Man muss lange suchen, um in den 5000 wichtigsten Posts etwas von Bedeutung zu finden. Wir haben Klima, Israel, Ukraine – und eine wachsende Zahl an Menschen, die sich über die sozialen Medien über das Geschehen informiert fühlen.
Erste Beispiele beschrieb ich im „Prompt der Woche“ bei der F.A.Z., weitere möchte ich hier veranschaulichen.
Da ist diese Grafik globaler Handelsströme der Welthandelsorganisation. Hochgeladen bei ChatGPT-4V, erkennt die Maschine:
Das bereitgestellte Diagramm zeigt die globalen Handelsströme des Warenhandels im Jahr 2011 in Milliarden Dollar. Hier sind die wichtigsten Informationen aus dem Diagramm:Regionale Handelswerte (in Milliarden Dollar) für 2011:Europa: 4.667Asien/Pazifik: 2.926Nordamerika: 1.103Russland/GUS: 754Nahost: 710Lateinamerika: 200Afrika: (Der genaue Wert ist nicht sichtbar, aber es scheint etwas über 150 zu sein)Interregionale Handelsströme (in Milliarden Dollar):Beispielsweise handelte Europa Waren im Wert von 906 Milliarden Dollar mit Asien/Pazifik und 476 Milliarden Dollar mit Nordamerika. Es gibt auch andere Handelsströme zwischen verschiedenen Regionen, die durch Pfeile und Zahlen dargestellt werden.Steigerung der Exporte von 2011 im Vergleich zu 2010 (in %):Nahost: +37,4%GUS/Russland: +33,9%Lateinamerika: +27,4%Asien/Pazifik: +18,0%Europa: +17,4%Afrika: +16,8%Nordamerika: +16,2%Weltweit: +19,7%Das Diagramm gibt einen Überblick über die Handelsbeziehungen und -werte zwischen den verschiedenen Regionen der Welt für das Jahr 2011. Es zeigt auch, wie sich die Exporte dieser Regionen im Vergleich zum Vorjahr gesteigert haben. Die Datenquelle ist die World Trade Organization (WTO).
Mehrere Fehler hat diese Auswertung: Der regionale Handelswert für Afrika sei nicht sichtbar, „aber es scheint etwas über 150 [Milliarden Dollar] zu sein“. Die Grafik benennt tatsächlich 77 Milliarden Dollar. Ebenso sind die Warenwerte zwischen Europa und Asien sowie Nordamerika im Text falsch angegeben. Und auch bei den regionalen Handelswerten von Russland und Nahost hat sich die Maschine vertan, offenbar die ähnlichen Ziffern 7 und 1 in der Texterkennung verwechselt.
Es gilt also, höllisch aufzupassen bei den Details.
Dabei dürfte schon helfen, statt einer JPG-Datei künftig ein PDF als Quelle hochzuladen (bisher geht das nicht). Dann entfiele die fehlerbehafte Ziffernerkennung.
Dennoch zeigt diese maschinelle Analyse die Richtung: Richtigerweise hat die KI erkannt, worum es geht. Gelingt es jetzt noch, weniger Fehler einzubauen – und darauf deutet die Entwicklung hin –, so werden neue Erkenntnisse und Interpretationen eine Sache von Sekunden. Die Maschinen erkunden Zusammenhänge.
Worum geht’s hier?
Der Prompt hierzu lautete: Worum geht’s? (Foto: Schwarze)
Im Ansatz klappt das mit dem Bild einer Stelltafel: Eine Gruppe von Medienmanagern pappte hier vor ein paar Jahren zu einem Zukunftsthema Klebezettel an die Wand, beschrieben mit Stichwörtern zur künftigen Bezahlschranke eines Online-Angebots. Die handschriftlichen Zettel wurden später von den Teilnehmern mit Punkten beklebt, je nach Einschätzung der Wichtigkeit.
Das hochgeladene Foto der Stelltafel wurde von GPT-4V auf die listige Frage „Worum geht’s?“ ausgelesen und mit drei, vier weiteren folgenden Prompts neu sortiert. Heraus kam eine Tabelle mit den wichtigsten Punkten, soweit die Maschine die Handschrift erkennen konnte. „Es scheint, als handele es sich um ein Brainstorming oder eine Planungstafel zu den Themen ‚Content‘ und ‚Zielgruppe‘.“
Die Maschine war auch in der Lage, die Anzahl der aufgeklebten Punkte bei einzelnen Klebezetteln auszuzählen. Nicht perfekt, aber es ergab eine zielführende, gute Grundlage.
Die Magie der KI ist dabei erkennbar, aber noch nicht zuverlässig und alltagsüberzeugend. Nicht jede Sauklaue wird erkannt, die Anordnung der Begriffe verrutscht teilweise. Doch auch hier stehen wir einmal mehr am Anfang einer neuen Entwicklung. Der Protokollant sorgt sich um seinen Job, der Kollege mit KI-Kenntnissen macht daraus seinen nächsten Karriereschritt.
Bild-Posts für Social Media bewerten
Für ein drittes Beispiel verweise ich auf den Kollegen Felix Beilharz: Er hat bei LinkedIn Beispiele von Social-Media-Posts untersucht, bei GPT4‑V eingespeist und um eine fachkundige Stellungnahme gebeten, sinngemäß: Wie gut ist der Post? Ist die Schrift groß genug? Die Bebilderung hilfreich? Die Maschine entdeckt in dem hochgeladenen Bild unter anderem einen mangelnden „Call to Action“, also eine klare Aufforderung, was der Leser oder die Leser als Nächstes machen sollte.
Ein Flussdiagramm interpretieren
Das vierte und letzte Beispiel für den Beginn einer neuen Zeit ist mein Liebling: Die folgende Grafik erstellte ich während der Coronazeit für die Landesregierung. Im extremen Hochformat veranschaulichte sie, wie lange damals jemand in Quarantäne gehen musste, sobald ein Kollege im Büro sich als infiziert krankmeldete.
Dem Diagramm ging ein genüsslicher Austausch mit aufgemalten Entwürfen von Zeichnungen von Fachleuten voraus.
GPT-4V ist in der Lage, dem entstandenen Flussdiagramm zu folgen – und die allgemeinen Regeln auf einen persönlichen Fall anzuwenden.
Der Prompt: Wie lange muss ich selbst in Quarantäne, wenn ich
a) mit dem infizierten Kollegen am Montag engen Kontakt hatte,
b) heute Mittwoch ist und
c) er sich krankgemeldet hat,
d) ich soeben einen positiven PCR-Test gemacht habe und
e) selbst Symptome aufweise?
Die Antwort, gekürzt: Da Sie als positiv getestete Person gelten, müssen Sie sich (weiterhin) isolieren. Sie haben zwei Optionen zur Beendigung der Quarantäne. Option 1: Sie müssen sich frühestens am 11. Tag der Isolation erneut einem PCR-Test unterziehen. Wenn dieser Test negativ ist, können Sie die Isolation frühestens am 14. Tag beenden. Option 2: Sie müssen am ersten Tag der Symptome oder am 14. Tag der Isolation einen PCR-Test durchführen lassen.
Das ist bei der Option 2 zwar nicht 100 Prozent exakt, aber nahe dran. Die KI kann künftig auch dabei helfen, Unklarheiten in bestimmten Formulierungen eines solchen Diagramms aufzustöbern. Jetzt stelle man sich das Ergebnis in ein, zwei Jahren vor, wenn auch die Bild-Erkennungs-KI erwachsen wird.
Beim Wiederfinden des Stelltafel-Bildes inmitten von 55.000 Fotos half übrigens eine andere KI: die von Apple Fotos. Sie hat alle diese Bilder untersucht, erkennt Motive, Personen, Objekte und Orte sowie handgeschriebene und gedruckte enthaltene Texte. Die Suche lief nach dem Wort „Content“, das einzige, an das ich mich erinnern konnte. Gerade hat Apple seine iCloud-Funktion für bis zu 12 Terabyte (statt bisher 2 TB) an Daten freigeschaltet.
Künstliche Intelligenz im Videokurs …
Seit vergangener Woche ist die kostenpflichtige Wolf-Schneider-KI draußen. Sie überarbeitet Texte nach den Regeln Schneiders. Ich hatte sie bereits vorab mittesten können und Ergebnisse hier beschrieben.
Gemeinsam mit Alessandro Alviani von Ippen Media und den Kollegen der Reporterfabrik gibt es parallel zum Start der WSKI ein kostenloses Online-Seminar zu Künstlicher Intelligenz im Journalismus. Alessandro gibt dazu einen Einblick in die Entwicklung, ich steuere praktische Anwendungen bei.
… und in der Branche
Praktische Lösungen für Publisher stehen auch im Mittelpunkt des Branchenmagazins Kress Pro, das einen bekannten Promptpraktikanten auf den Titel hob. Man sollte ein Geschäftsmodell daraus machen: Die Ausgabe kostet 38 Euro. Chefredakteur Markus Wiegand hat aufgeschrieben, um welche Anwendungen es im Einzelnen geht.
Eine KI-gestützte Analyse seines Postings (als Screenshot) besagt unter anderem: „Das Titelbild zeigt eine Nahaufnahme eines Mannes, der seriös und nachdenklich aussieht.“ So weit, so schmeichelhaft (Danke, Sascha!). Aber zu möglichen Kritikpunkten: „Bildauswahl: Obwohl das Foto des Mannes professionell aussieht, könnte es für einige Betrachter nicht sofort klar sein, wer er ist oder welche Rolle er im Kontext des Magazinthemas spielt.“
Grafiker müssen umdenken. Wer eine Bebilderung für ein schwieriges Thema braucht, füttert seit ein paar Monaten eine Bilder-KI mit Anweisungen. Wenn man es richtig macht, kommt dabei eine vorzeigbare Illustration heraus. Diese kann fotorealistisch oder wie eine Zeichnung aussehen, vektorisiert (wie oben) oder wie ein Ölgemälde – es kommt eben auf den Prompt an, die Regieanweisung also an die KI.
Midjourney galt bisher als der Porsche unter den generativen Bilder-KIs, obwohl die Bedienung in Verknüpfung mit der Chat-Software Discord nicht eben leicht zu erlernen war. Die Resultate aber waren und sind oft überzeugend.
Seit wenigen Tagen hat auch ChatGPT eine Bilderfunktion eingebaut. Sie heißt Dall‑E 3 und lässt sich bei der kostenpflichtigen Version GPT‑4 über den gleichlautenden Menüpunkt aktiveren. Eine Anleitung zu Dall‑E 3 kennt GPT‑4 nicht. Aber dafür gibt’s ja mich.
Der Prompt für die vier Bilder oben in GPT‑4 lautete (deutsche Übersetzung folgt):
Create an illustration depicting the role of a meticulous journalist summarizing a specific text according to strict guidelines. The scene should encompass the following elements: The Journalist at the Desk: Showcase a person seated at a desk equipped with a computer, notes, and books. The individual should appear focused, possibly holding a magnifying glass to symbolize attention to detail. A Marked and Annotated Text: Place a document on the desk with highlights, underlines, and annotations, emphasizing the requirements of the journalistic process, such as gendering job titles and avoiding certain words. Vivid Examples: Include small illustrations or symbols representing the themes or concepts described in the text, fulfilling the demand for vivid examples. Neutral Style and Color Scheme: Employ subdued, neutral colors to reflect the journalist's objectivity and neutrality. The goal is to craft a scene that illustrates both the complexity of the journalistic task and the simplicity and clarity of the requirements. The illustration should strike a balance between richness in detail and simplicity, highlighting the care and accuracy of the journalist.
Erstelle eine Illustration, die die Rolle eines sorgfältigen Journalisten beim Zusammenfassen eines spezifischen Textes nach strengen Richtlinien darstellt. Die Szene sollte folgende Elemente umfassen:Der Journalist am Schreibtisch: Zeige eine Person, die an einem mit Computer, Notizen und Büchern ausgestatteten Schreibtisch sitzt. Die Person sollte konzentriert wirken, möglicherweise mit einer Lupe in der Hand, um die Liebe zum Detail zu symbolisieren.Ein markierter und annotierter Text: Platziere ein Dokument auf dem Schreibtisch, das Hervorhebungen, Unterstreichungen und Anmerkungen aufweist. Diese sollen die Anforderungen des journalistischen Prozesses hervorheben, wie zum Beispiel das Gendern von Berufsbezeichnungen und das Vermeiden bestimmter Worte.Lebendige Beispiele: Füge kleine Illustrationen oder Symbole hinzu, die die Themen oder Konzepte im Text repräsentieren und damit den Anspruch an lebendige Beispiele erfüllen.Neutraler Stil und Farbschema: Verwende zurückhaltende, neutrale Farben, um die Objektivität und Neutralität des Journalisten widerzuspiegeln.Das Ziel ist es, eine Szene zu schaffen, die sowohl die Komplexität der journalistischen Aufgabe als auch die Einfachheit und Klarheit der Anforderungen illustriert. Die Illustration sollte ein Gleichgewicht zwischen Detailreichtum und Einfachheit finden und die Sorgfalt und Genauigkeit des Journalisten hervorheben.
Nicht ich habe diesen Prompt so ausgefeilt formuliert, sondern die KI Chat-GPT bereits vor ein paar Monaten. Damals für Midjourney. Heraus kam bei Midjourney diese Illustration:
Einen Schritt weiter geht die Anwendung Firefly 2 von Adobe. Der oben genannte Prompt ist dafür zu lang und produziert deshalb einen Fehler. Verkürze ich den Prompt, kommen diese Ergebnisse heraus – nach zusätzlichem Einstellen eines Inhaltstyps Foto (statt Kunst) und Hinzufügen der Effekte Hyperrealistisch und Goldene Stunde.
Finger und Haut wirken etwas unnatürlich. Beim Herunterladen merkt die Software an, dass in der Datei Informationen hinterlegt werden, wonach es sich um ein KI-generiertes Bild handelt.
Firefly erschließt erstmals besser die berüchtigte „Blackbox“ der künstlichen Intelligenz: Bei Midjourney und Co stocherte man bisher im Nebel, warum die Maschine gewisse Bilderelemente generierte und welche Stile sie beherrscht und warum die KI sie anwendet. Bei Firefly ist alles fein ziseliert einstellbar – fast wird man erschlagen von den Möglichkeiten. Neben der grundlegenden Festlegung auf Foto oder Kunst lassen sich zum Beispiel folgende Effekte anwenden:
Bei vielen weiteren Versuchen stellte sich heraus, dass mit Adobe Firefly am besten zu steuern ist, wie die Maschine agieren soll. Allerdings sind die Einstellungen so vielfältig, dass sie sich kaum auf Anhieb erschließen. Versuch und Irrtum sind die neuen Zeiträuber – wieder ist eine Stunde weg, ohne dass ein „perfektes“ Ergebnis vorliegt.
Andererseits kann mit den Werkzeugen nun jeder Anfänger eine schnelle Illustration für eine Präsentation zaubern. Der Aufwand beträgt etwas Gehirnschmalz für den geeigneten Prompt – und gegebenenfalls etwas Überarbeitung.
Für den Lokaljournalismus ergeben sich so neue Möglichkeiten. Wenn dann tatsächlich nach Jahrzehnten der Diskussion über eine neue Brücke am Mittelrhein eine wichtige grundlegende Entscheidung gefällt wurde – warum sollte man sie nicht mit einer Illustration dokumentieren, die die Leserinnen und Leser träumen lässt? Andererseits wird der Journalist mit einer solchen Darstellung zum Akteur: Kein Planungsbüro, kein Bauamt hat diese Entwürfe gemacht, die Kosten unabsehbar, die Realisierung in jedem Fall fraglich. Entsprechend als „KI-generiert“ zu kennzeichnen sind diese Bilder daher allemal.
Eines meiner Lieblingsbilder der KI, das einer Frau in Gucci-Klamotten (oben), lässt sich bei Firefly auch als „Referenzbild“ für neue Kreationen festlegen. Die Maschine analysiert dann das Bild und nimmt grundlegende Erkenntnisse für eine neue Darstellung zum gleichen Prompt auf. Das Ergebnis:
Die grundlegenden Elemente, Farben, Stimmungen und Details neu aufzunehmen, wird so zur neuen Möglichkeit, ohne Model, Studio, Schweiß und Tränen. Andererseits birgt die KI-Technik die Gefahr, sich in den Tiefen des Promptens zu verzetteln. Und 100-prozentig authentisch wirken die Ergebnisse weiterhin nur per Zufall.
Jemand aus Italien lädt ein Foto eines Wohnzimmers hoch und bittet um Vorschläge fürs Verschönern. Die Maschine schlägt unter anderem Akzentfarben vor, inspiriert von italienischem Dekor:
GPT‑4 vision for interior design. 🏠
I love how it’s incorporating what it knows about me in the suggestion because of custom instructions.
Eine verwirrende Ansammlung von Straßenschildern interpretiert ChatGPT: Ja, Du kannst hier ab 16 Uhr an einem Dienstag für eine Stunde parken:
Prüfungsaufgaben der Mathematik und Physik, hochgeladen als Foto, beantwortete die Maschine mit entsprechenden Formeln (allerdings sind die Antworten wohl nicht in Gänze korrekt, wie die Diskussion unter dem Tweet zeigt):
Für eine bestimmte Innenarchitektur und das dargestellte Design findet die Maschine offensichtlich richtigerweise den Begriff des „Athenischen Modernismus“ (einfach mal googeln):
Using GPT‑4 Vision to name never-before-seen architectural styles created with Midjourney.
OpenAI selbst zeigt, wie ChatGPT durch Bilder, Anleitung und Ein Foto vom Werkzeugkoffer bei einer Handwerkeraufgabe helfen kann:
Die Ikea-Anleitung wird nie wieder sein, was sie war. Die künstliche Intelligenz ChatGPT kann Bilder lesen und interpretieren. pic.twitter.com/3Swbgm0pVy
Und dann war da noch dieses Video einer ganz anderen Baustelle, von Lex Fridman mit Mark Zuckerberg, das erstmals anschaulich das viel besprochene und von vielen schon wieder totgesagte Metaverse zeigt – einen virtuellen Raum, an dem die Facebook-Schmiede Meta feilt. Die Herren tragen eigentlich schwere Brillen und Kopfhörer, doch die Technik lässt die Geräte verschwinden. Mimik und Sprache werden künstlich generiert, man wähnt sich in einem gemeinsamen verdunkelten Raum:
Alle sprechen über KI und ChatGPT. Aber Mark Zuckerberg gab gerade dieses Interview – mithilfe einer Brille, die ihn mit dem Gesprächspartner in einen gemeinsamen Raum beamt. Und die Technik verschwinden lässt. pic.twitter.com/F1QnbxCABf
… konnte ich noch nicht testen, die Funktion wird erst nach und nach ausgerollt. Viele weitere Beispiele zeigen die Leistungsfähigkeit, aber auch die Fehler. OpenAI selbst hat in einem Papier bereits untersucht, welche Gefahren von der neuen Sehfähigkeit der Maschinen ausgehen können. Sie reichen von falsch erkannten giftigen Pilzen bis zur Befeuerung von Klischees und Vorurteilen.
Und noch eine Funktion wird bei ChatGPT gerade populär: die Fähigkeit, gesprochene Prompts zu erkennen und gesprochen zu beantworten. Das ist zwar mit Blick auf die alten Damen Alexa und Siri keine Meisterleistung mehr, in Verknüpfung mit KI-Leistungen im Hintergrund aber für viele ebenso krasses Neuland.
Vielen Dank fürs Lesen von Marcus Schwarzes Newsletter! Dieser Post ist öffentlich, also zögern Sie nicht, ihn zu teilen.
Mehr zur rasanten Entwicklung der künstlichen Intelligenz bietet das Briefing Frankfurter Allgemeine Pro D:ECONOMY. Darin auch der „Prompt der Woche“ mit bisher zwei Beiträgen von mir:
Die F.A.Z., Deutschlands einzige Zeitung mit drei Punkten in der Abkürzung, nimmt freundlicherweise meine Dienste in Anspruch; im „Prompt der Woche“ geht es in der ersten Folge darum, wie mithilfe von künstlicher Intelligenz (KI) ein hundertseitiges PDF auf die Schnelle zusammengefasst, geröntgt und nach allen Regeln eines Sherlock Holmes auf Herz und Nieren untersucht werden kann.
So gibt es einen Eintrag aufs Fleißkonto und meine Bitte: Abonniere zum Dank für so viel Eifer den neuen F.A.Z. PRO D:ECONOMY Newsletter! Der ist für drei Monate kostenlos und wird jeden Mittwoch von Netzökonom Holger Schmidt und Johannes Winkelhage verschickt. Ich darf dort häufiger einen „Prompt der Woche“ beisteuern, eine Regieanweisung an die KI.
Und weil das noch nicht genug ist, erklären die Macher in diesem Podcast, was F.A.Z. PRO D:Economy ausmacht (und meinen kleinen Beitrag dazu so wertvoll).
Genug des Eigenlobs für heute, hier der zweite Newsletter.
Ich schrieb ja schon häufiger, dass die KI nur so gut antwortet, wie man es ihr beibringt. „Schreib einen Text im Stil von Franz Josef Wagner.“ Das funktioniert schon heute, weil ChatGPT ganz offensichtlich auch mit Texten des „Bild“-Kolumnisten trainiert und getriezt wurde. Ich habe das hier ausprobiert. Und was soll man sagen: Es klappt, jedenfalls im Ansatz.
Vielleicht ein wenig lang das Ganze, „die Zeit wird es zeigen“ hat Luft nach oben als intellektueller Hirnriss, und gewiss würde der richtige Franz Josef die Annalena auch direkt ansprechen und seine Redaktion sogar ihren Vornamen korrigieren; aber die Maschine kann ja verkürzen, was auch im Naturell des „Bild“-Menschen liegt. Was wohl der umtriebige Verleger und KI-Fan Mathias Döpfner dazu sagt? Aber das ist, wie Kipling nie gesagt oder geschrieben hat, eine andere Geschichte.
Die Maschine widerspricht
Doch habt ihr die Vorbemerkung der KI in diesem tja, vergnüglichen Experiment gelesen? Sie wagt den Widerspruch! „Der Schreibstil entspricht nicht den journalistischen Kriterien, die Sie bevorzugen, wie Neutralität und eine strenge Fokussierung auf Fakten.“ Und die Maschine wagt, das offenbar Unmögliche zu fragen: Möchten Sie dennoch, dass ich einen Text in diesem Stil verfasse?
Hintergrund ist diese eine Feineinstellung, die man bei ChatGPT hinterlegen kann: „Benutzerdefinierte Anweisungen“ werden im Menü mit den drei Punkten hinterlegt.
Fortan reagiert die Maschine etwas besser auf meine Prompts, weil sie nun besser weiß, was ich von ihr erwarte. Das ist zwar auch kein Garant gegen Gaga-Gequatsche, aber aus dem 14-jährigen KI-Promptpraktikanten wird so etwas schneller ein 18-jähriger Sparringspartner.
Wagner jedenfalls könnte von heute auf morgen abtreten und zugleich unsterblich werden. Was allen gefallen könnte: a) dem Verleger, der ein Gehalt einspart, b) dem Kolumnisten, der endlich nicht mehr mit Vorgängen der Welt getriezt werden müsste, und c) jenen Leserinnen und Lesern, die aus rein professioneller Medienbeobachtung (natürlich) stets die Sichtweisen Wagners verfolgen müssen, um d) dem Volk aufs Maul zu schauen. But that ist another story.
Wer für Redaktionen oder PR-Abteilungen arbeitet, kennt das mühsame Schreiben eines guten Textes: Ein Kollege oder eine Kollegin überarbeitet den Beitrag, stellt Fragen zu unklaren Formulierungen und korrigiert Rechtschreibung und Grammatik. Am Ende wird der Text von einer Chefin vom Dienst (CvD) gelesen. In Zukunft könnten diese beiden Rollen wegfallen oder zumindest technische Unterstützung erhalten, denn die künstliche Intelligenz (KI) übernimmt nun das Korrekturlesen.
In meinem Fall ist das seit ein paar Monaten Wolf Schneider. Der im November verstorbene Ausbilder für gute Sprache ist Namensgeber der KI der Reporterfabrik in Berlin. Die Journalistenschule hat sich die Namensrechte gesichert und in einem Team um Cordt Schnibben (ehemals Redakteur beim „Spiegel“) innerhalb der letzten fünf Monate diese künstliche Intelligenz entwickelt. Ich durfte am laufenden Betatest der Maschine teilnehmen.
In den letzten Monaten hat die Wolf-Schneider-KI (WSKI) fast jeden meiner Texte überarbeitet, auch für diesen Newsletter. Ich habe meinen Text in ein Fenster kopiert und die WSKI hat den verbesserten Text im benachbarten Fenster geschrieben. Das ist in Sekunden erledigt. Hier ein Beispiel eines Textes, der nicht von mir stammt, der Pressemitteilung der Reporterfabrik:
Jeder Text lässt sich verbessern, auch die Pressemitteilung der Reporterfabrik. Anschließend ergänzt die Maschine eine Analyse. (Screenshot: Schwarze)
Die Schreibregeln von Schneider sind legendär. Sie verbieten Füllwörter und setzen auf kurze Sätze. Schneider empfiehlt Ein-Silben-Wörter. „Wir sind aus Einsilbern: Hand und Fuß, Kopf und Blut.“ So sagt er es in einem Kurs der Reporterfabrik. Zweisilbige Wörter sind die zweitbeste Wahl. Keine Schachtelsätze, sondern vor allem Hauptsätze. „Eingepferchte Nebensätze sind immer schlecht.“ Der Text sollte laut vorgelesen gut ins Ohr gehen. „Wir schreiben immer für die Ohren.“
Die WSKI hat viele dieser Regeln übernommen. Schon bei den ersten Tests hat die Maschine meine Texte gekürzt und Passiv-Konstruktionen in aktive Sätze umgewandelt.
Ein Paradigmenwechsel, oder?
Für Redaktionen bedeutet die Sprach-KI einen Paradigmenwechsel, oder wie Wolf Schneider sagen würde, einen Schwenk. Sprache wird wieder mehr zum Werkzeug.
In der neuesten Version der KI erhält das Handwerk des Journalismus zusätzliche Unterstützung durch eine ausführliche Textanalyse. Wolf Schneiders Nachfahre gibt Anregungen, was im Text noch ergänzt werden könnte. Bei vielen Sätzen können alternative Formulierungen angezeigt werden, und für jedes Wort können alternative Wörter vorgeschlagen werden. Nachdem die Maschine einen Text überarbeitet hat, kann man außerdem abrufen, welche Wolf-Schneider-Regel dahintersteckt.
Die Wolf-Schneider-KI befindet sich derzeit noch in der Betaphase. Die gemeinnützige Reporterfabrik bietet Test-Usern die Möglichkeit, das Tool kostenlos auszuprobieren. Interessenten können per E‑Mail Zugang erhalten, indem sie sich an wski@correctiv.org wenden.
Nach dem Betatest wird die KI voraussichtlich fünf Euro im Monat kosten, wie Schnibben in einem Gespräch angedeutet hat.
Fazit
Mein Urteil über das Werkzeug: Es ist aus dem Alltag des Textens kaum mehr wegzudenken. Zu neunzig Prozent sind die überarbeiteten Sätze besser als der Ursprung. Aber: Nicht bei allen redigierten Dingen gehe ich mit. Da habe ich weiterhin das letzte Wort. Wenn etwa die Maschine zu Beginn des Betatests aus den „Schülerinnen und Schülern“ die „Schüler*innen“ macht, würde vermutlich auch der echte Wolf Schneider widersprechen – und daraus schlicht „Schüler“ machen.
Das widerspricht wiederum meinem Sprachempfinden und im übrigen auch den Regeln, die manche Redaktion sich selbst auferlegt hat. Ich bin gespannt, was die Maschine aus dem vorherigen, kursiv gesetzten Absatz macht. Hier das Ergebnis.
Seit einigen Wochen verfolgen mich asiatische Schönheiten. Nicht diese brüsken, dürftig bekleideten Damen, die der Spamfilter ohnehin aussortiert. Die vermeintlichen Damen sind stets züchtig gekleidet und zumeist an die 20 Jahre jünger. Sie schreiben mir auf Instagram und auf WhatsApp per direkter Nachricht subtile Botschaften. „Warum wirst Du mir dauernd hier auf Insta empfohlen?“, fragt eine Amra auf Englisch. „Hallo, bist Du der Typ aus dem Business Meeting in Tampa?“, erkundigt sich eine Catalina aus Florida. „Ich habe Dein Landschaftsfoto gesehen, tolles Bild!“, findet eine Lee aus London.
Nun werden meine direkten Nachrichten auf Instagram in einem Ordner „Nachrichtenanfragen“ abgelegt, den ich selten aufsuche. Benachrichtigungen dazu sind aus, so herrschte lange Zeit Ruhe im Karton. Bei WhatsApp werden solche Botschaften normalerweise von mir gemeldet und die Absender blockiert.
Doch neugierig, wie ich bin, bin ich dann doch mal auf die Anfragen auf Instagram zum Schein eingegangen. Worauf war die Masche aus?
Quatschen mit Amra, Catalina und Lee
So quatschte ich über Tage mit Amra, Catalina und Lee, schnell kamen ein paar weitere vermeintliche Damen hinzu, die mir zuletzt ihren Kontakt angeboten hatten. Ich entdeckte wunderbare Lofts in Manhattan und Restaurants in Malaysia, fotografiert wurden edle Mahlzeiten und noch öfter das eigene Spiegelbild.
Man verliert übrigens schnell den Überblick, wer von denen welchen Beruf hat und ob man schon gefragt hat, aus welcher Stadt sie kommt. Fragt man in so einem Chat ein zweites Mal nach der Herkunft, so deutet der Tonfall der Antwort auf Entrüstung wegen des Mangels an Aufmerksamkeit, für euch ausprobiert.
Erstaunlicherweise verfügten alle angeblichen Damen ausweislich ihrer Fotos über einen gewissen Reichtum. Davon zeugten Bilder tollen Essens in teuren Restaurants, Gucci- und Dior-Handtaschen und ein Besuch auf der Ferrari-Messe in Abu Dhabi. Selten zeigten die Damen viel Haut, das wäre zu profan. Höchstens mal etwas Fitnessstudio. Und so gut wie immer reagierten die Damen fast beleidigt, wenn man nicht sofort auf eine Nachricht antwortete, Zeitzonen hin oder her.
Schneller Wechsel von Instagram auf WhatsApp
Erst vermutete ich künstliche Intelligenz im Einsatz – als ich bemerkte, dass die Antworten meine Rechtschreibfehler imitierten. Dann verquatschte sich eine der Angreiferinnen und fragte übermütig, was ich denn eigentlich dauernd mit ihren Freundinnen zu besprechen hätte? Häufig wollten die Damen schnell auf WhatsApp wechseln, das wäre ja irgendwie persönlicher. Nur auf meine listige Frage, ob wir mal telefonieren möchten, reagierte keine der Befragten wie gewünscht.
Zweimal lenkten die Gesprächspartnerinnen das Thema auf Kryptowährungen, die eine fragte rundheraus nach einer „kleinen“ Investition von 500 Dollar, ihr Onkel sei Banker und bekomme häufiger mal einen guten Tipp; Sie wissen schon, der Short-Selling-Handel. Da glaubte ich endlich zu wissen, worauf die Angreiferinnen letztlich aus waren. Doch erstaunlicherweise waren die anderen Damen nicht an meinen Kryptowährungskenntnissen interessiert, als nun ich die Gespräche zum Test darauf zu lenken versuchte.
Alle zwölf Damen waren Fake
Den wahren Grund für die massenhaften Kontaktanbahnungen habe ich am Ende nicht herausgefunden. Nur dass alle zwölf Damen Fake-Profile waren und sind, das hat mir eine Maschine der künstlichen Intelligenz (KI) bewiesen: Bei facecheck.id kann man ein Porträt einer Person hochladen, der Dienst findet dann per Gesichtserkennung ähnlich aussehende Social-Media-Profile dazu. Gesucht wird dabei nicht nach der identischen Bilddatei wie bei Google Bilder, sondern nach biometrischen Merkmalen, die die KI in einer Datenbank gespeichert hat.
Und siehe da: Plötzlich heißt die Gucci-Catalina auch mal Jini und wohnt statt in Florida in Los Angeles; mit dem gleichen Gesicht gibt es 17 LinkedIn- und zehn Twitter-Accounts mit unterschiedlichen Namen. Die Kryptowährungs-Amra ist mit demselben Bild auf Twitter mal als Phyllis, Luca und Huang-Deng unterwegs, gilt auch dort ausweislich ihrer Posts als Fachfrau für Kryptokohle. Nur Kommentare von Freundinnen oder Freunden findet man dann selten, Schönheit macht wohl einsam. Den prominentesten Chat erlebte ich mit Erin, die auch schon mal Celia heißt und namens einer Modemarke aus Korea mit einem Account 103.000 Follower zählt.
Vertrauen erschleichen, Kompromat erlangen
Was hat es letztlich mit solchem Scam, Betrug also, auf sich? Ich kann nur vermuten: Es geht darum, Vertrauen aufzubauen und zu erschleichen. Möglicherweise wollte jemand irgendwann kompromittierende Antworten von mir provozieren, um sie anschließend für eine Erpressung zu verwenden. Der gesunde Menschenverstand kann bei so viel Schönheiten schließlich schon mal verloren gehen.
Dass es sich um eine konzertierte Aktion handelte, beweist ein anderer Umstand: Als ich zwei der Damen mit den gefundenen weiteren Social-Media-Profilen konfrontierte, reagierte die eine zickig (oder bockig?), „Ich bin ich“, und die andere blockierte mich sofort. Fortan reagiertefür eine Weile die ganze Bande nicht mehr. Offenbar waren die falschen Freundinnen auch untereinander gut vernetzt.
Persönlichkeitsrechte?
Ob der Dienst Facecheck.id in Europa zulässig ist oder nach Verabschiedung des europäischen KI-Acts noch ist, steht auf einem anderen Blatt. „Nur für Lernzwecke“ schreibt der Betreiber Sentient Labs aus Indonesien. Man rühmte sich zuletzt, 400.000 Fotos und Profile von Heiratsschwindlern und Liebesbetrügern erfasst zu haben. Insgesamt soll die Maschine 550 Millionen Bilder kennen. Wie das mit dem Persönlichkeitsrecht oder dem Verwertungsrecht von Fotos einhergeht, ist schleierhaft. Und warum es von Unternehmenschef Lee Chong offenbar kein öffentliches Bild gibt, wundert auch ein wenig. Eine Homepage der Firma fand ich nicht.
Eine weit größere Gesichterdatenbank namens Clearview AI mit 30 Milliarden Bildern wurde laut einem Bericht der „New York Times“ mittlerweile in mehreren europäischen Ländern sowie in Kanada und Australien verboten. Öffentlich zugänglich ist der Dienst nicht, Strafverfolgungsbehörden in den USA nutzen ihn – unter anderem auch in Dänemark, Finnland und Frankreich. Auch Interpol soll den Dienst 320-mal eingesetzt haben. In Deutschland hat der Hamburger Datenschutzbeauftragte den Dienst als Verstoß gegen die Datenschutzgrundverordnung eingeschätzt. Italien verhängte eine Geldstraße von 20 Millionen Euro. Zuletzt machte das Unternehmen mit einem Einsatz im russischen Krieg in der Ukraine von sich reden: Ukrainische Militärs identifizierten damit Tote und russische Überläufer.
Gleiche Bilder, gleicher Film
Gerade hat wieder eine unbekannte Linda elf meiner Bilder auf Instagram durchgelikt, es geht schon wieder los. Ihre eigenen Fotos deuten auf ein sorgenfreies Leben. Komisch nur, die angebliche Dame ähnelt laut Gesichterkennungs-KI zum Verwechseln dem Model Veronika Cereda aus Kiew. Und merkwürdig – bei der prominenteren, augenscheinlich authentischen Dame mit Zehntausenden Fans taucht das gleiche Bild auf einem Schimmel reitend durchs Wasser auf. Eine Aufnahme von Frau Sereda aus Dubai im mintgrünen Kostüm mit weißer Handtasche kann Linda ebenso vorweisen. Und sogar das Video von ihr unter Wasser mit blauen Flossen gibt es in beiden Profilen.
Zufälle gibt’s.
Wenn Sie die Fake-Entlarvung einmal selbst ausprobieren möchten: Ich folge nun bis auf Weiteres mehreren dieser Fake-Damen auf Insta. Meine Followings sind öffentlich. Und wundern Sie sich nicht über manche Followings, die anders als die hier genannten Konten niedere Instinkte ansprechen. Eine gewisse Sarah Jordan ist ganz offen ein Fake mit sehr freizügigen Bildern. Der Account ist komplett KI-generiert. „Made in Australia“.
Das Konto zählt 377.000 Follower.
Zum Schutz der realen Personen, deren Bilder hier offensichtlich für Betrugsversuche missbraucht werden, habe ich in diesem Beitrag auf Screenshots der von facecheck.id gefundenen Fake-Profile verzichtet; stattdessen lud ich dort ein Bild von mir selbst hoch und ließ die Maschine nach meinem Gesicht suchen.
Zum Beispiel Dante AI: Neben GPT‑4 von OpenAI und dem Vorgängermodell GPT‑3.5‑Turbo können neuerdings auch das Open-Source-Modell Falcon LLM und das Modell LlaMA 2 von Facebook-Anbieter Meta hinterlegt werden.
Zum Beispiel Perplexity AI: Hier kann statt GPT‑4 von OpenAI wahlweise auch das Modell Claude 2 oder ein eigenes Modell von Perplexity eingerichtet werden.
Mal eben die Maschine wechseln: Bei Dante AI stehen mittlerweile mehrere Sprachmodelle zur Auswahl. (Screenshot: Schwarze)
Hinzu kommt, dass GPT‑4 nach Beobachtung von Fachleuten zuletzt an Qualität eingebüßt hat. So konnten Anwaltskanzleien vor vier, fünf Monaten der Maschine durchaus brauchbare Vorlagen fürs rechtskonforme Internet-Impressum oder eine Datenschutzerklärung entlocken. Mittlerweile produziert GPT‑4 häufiger Müll.
Auch mir erging es zuletzt häufiger so: Einst gut funktionierende Prompts fürs Zusammenfassen von Sachverhalten in meinem, der Maschine antrainierten Duktus lassen nun häufiger Anforderungen offen. Es half, auf GPT‑3.5 statt 4 zu wechseln.
GPT‑4 mit nachlassender Qualität
Die nachlassende Qualität von GPT‑4 bestätigt in Teilen eine Studie der Universitäten Stanford und Berkeley: In drei von vier getesteten Feldern nahm die Leistung zwischen März und Juni ab. Konnte die Maschine im März noch 97,6 Prozent an Primzahlen erkennen, waren es im Juni nur noch 2,4 Prozent.
Nun könnte man schlussfolgern, dass die Vielzahl aus Gagafragen aus aller Welt bei GPT‑4 in den vergangenen Monaten für Verwirrung und Durcheinander sorgt. Doch hat Open AI stets betont, dass die Chatverläufe aus Datenschutzgründen nicht in das Modell einfließen. Wahrscheinlicher ist, dass die Macher ihr Modell weiterentwickeln und vor allem Rechenzeit pro Anfrage einsparen – nicht immer zum Besten.
Wie einst in der Schrauberszene für Autos tunen heute Enthusiasten ihre zusammengeklickten KI-Maschinen, bauen etwa ein anderes Sprachmodell als GPT‑4 als neuen Motor ein. Wie sich die Motoren unterscheiden, erschließt sich bei den merkwürdigen Namen wie LlaMA und Falcon allerdings nur Spezialisten. Schrauben dann zusätzlich die Macher von GPT‑4 im Hintergrund an den Parametern, ist guter Rat teuer: Warum schwankt die Qualität der Antworten?
Die Ingenieure bei OpenAI halten sich mit Antworten dazu eher zurück. Doch scheint der Markt sich neu zu orientieren: Der Traffic auf der Webseite openai.com ging laut Similarweb von Mai (1,9 Milliarden Visits) bis Juli (1,5 Milliarden) deutlich zurück.
Wer will, baut sich vielleicht lieber auf dem eigenen Rechner eine eigene KI nach, dafür gibt es die Anwendung GPT4All. Auch hier können GPT‑4 und 3.5, aber auch LlaMA 2 und andere Modelle hinterlegt werden.
Wer sind Sie und was wollen Sie?
Hinzu kommen bei den kommerziellen Diensten Perplexity und Dante AI vorzugebende Randumstände, an denen sich die jeweiligen KIs orientieren sollen. Beim herkömmlichen GPT‑4 füllt man dafür zwei Felder aus, in denen man zunächst die eigene Rolle („Ich bin CEO und brauche klare, pointierte Antworten, auch Hinweise auf mögliche fehlerhafte Entscheidungen“) und dann die Wünsche an die Antworten formuliert („Genaue Antworten, erfinde nichts“).
Bei Perplexity soll man einmalig einstellen, wer man ist, wo man hinwill, was man sonst so macht. (Screenshot: Schwarze)
Bei Perplexity AI wird das ausführlicher. Die Maschine möchte Infos über den eigenen Standort, in welcher Sprache zu antworten ist, eigene Hobbys und Interessen, den Beruf und künftige Ziele.
Perplexity gibt dadurch genauere Antworten, die auf den Fragenden besser abgestimmt sind. Hinzuschaltbar ist außerdem ein „Copilot“: Dann antwortet Perplexity nicht einfach drauflos, sondern stellt durchaus intelligente Verständnisfragen. Oder schaut im Internet nach.
Das Nutzerinterface ist dabei gewöhnungsbedürftig. So wird fürs Zusammenfassen eines längeren Textes zurückgefragt, welchen thematischen Schwerpunkt die Zusammenfassung haben soll – und macht auch gleich kommaseparierte Vorschläge. Will man dann zwei, drei Schwerpunkte auswählen, verschwinden sie beim Anklicken und müssen manuell eingetippt werden – lästig.
Die Maschine schaut selbst im Internet nach
Interessant ist Perplexity aber auch deshalb, weil es von Haus aus Internetrecherchen zum Beantworten anstellen kann. Die Quellen werden angegeben. Auch ist es möglich, eine Datei hochzuladen und gezielt Fragen dazu zu beantworten. „Worum geht es in dem Video?“ – die Frage samt benannter YouTube-Adresse bringt die Maschine zu einer ordentlichen Zusammenfassung; wenngleich sie auch Dinge aus anderen Quellen hineinmengt, dies aber meist transparent macht.
Perplexity kostet wie GPT‑4 20 Dollar im Monat. Voreingestellt ist die Nutzung der eigenen Chatverläufe durch das Unternehmen dahinter, um das Perplexity-Sprachmodell zu verbessern. Das kann man abschalten.
Insgesamt bietet Perplexity über GPT‑4 hinausgehende Funktionen wie die Alternative Claude 2 als Sprachmodell, das viel längere Prompts erlaubt, und die schnelle Live-Suche auf Internetseiten. Beim alten GPT‑4 gelingt Vergleichbares nur mit Plugins.
Sind Perplexity und Dante damit Aspiranten auf die Nachfolge oder Wachablösung von GPT‑4? Nein, dazu fehlen ihnen weitgehend die eigenen Trainingsdaten. Doch ist der simple Austausch des Motors auch von fremden Anbietern unter der Haube etwas, das ChatGPT nicht bietet. Und dann ist auch noch die Funktion „Advanced Data Analysis“ bei GPT‑4, die das Hochladen eigener Dokumente erlaubt.
Der Markt wird unübersichtlich
Die Funktionalitäten der KIs werden weiter rasant erweitert. Der Markt wird für Laien zusehends unübersichtlich. Rund 7.500 KI-Dienste versammelt die „Übersicht“ namens There’s an AI for that. Was da jeweils unter der Motorhaube steckt und Erfolg hat, muss der Markt sichten und richten.
Und da haben wir bisher nicht über weiterhin agierende große alternative Dienste wie von Google („Bart“ und „Duet AI“) und der angeblichen europäischen Alternative Aleph Alpha aus Heidelberg gesprochen. Für Duet AI habe ich meine Freischaltung zum Testen beantragt, bei Aleph Alpha befand ich die Antwortqualität nach einem Test auf deren Spielwiese nicht konkurrenzfähig. Die Ansprüche steigen.