Das ist für mich eher der Wikipedia-Moment: Weltweites Wissen wird lokal und transparent zugänglich, und das geschieht nun auch bei den Interpretationen der Künstlichen Intelligenz (KI).
Doch passiert das nicht allein durch vermeintliche Zauberei bei den geschlossenen, uneinsehbaren Modellen wie ChatGPT, Claude oder Google Gemini. Sondern künftig mehr und mehr bei downloadbaren Open-Source-Modellen wie LlaMA vom Facebook-Konzern Meta, Falcon von TII aus den Vereinigten Arabischen Emiraten oder Yi von 01.AI aus China.
Hintergrund ist ein Leistungsvergleich mehrerer Sprachmodelle. Demnach holen die frei zugänglichen bei der Korrektheit ihrer Antworten gegenüber den geschlossenen Modellen auf. Die grüne Trendlinie in der Grafik dürfte bald auf die blaue Trendlinie treffen. Grün sind die Open-Source-Modelle, blau die Closed-Source-Versionen. Die Leistungsfähigkeit wird hier bei der sogenannten MMLU-Performance gemessen. MMLU steht für „Massive Multitasking Language Understanding“ und beinhaltet einen Test für 57 Themen. Demnach gilt GPT‑4 weiterhin als das „beste“ Sprachmodell unter jenen, die keine extra Trainingsdaten enthalten. Das neuere Modell Gemini Ultra von Google rangiert bei diesem Vergleich zwar oberhalb von GPT‑4, doch enthält es extra Trainingsdaten, die speziell auf die Testfragen abgestimmt sein könnten.
In der Praxis kann man sich heute bereits eine eigene KI zusammenstöpseln. Basissoftware ist zum Beispiel GPT4All, das für Windows, macOS und Linux erhältlich ist. Aus der Software heraus lassen sich bereits diverse Sprachmodelle herunterladen, die Namen tragen wie Mistral OpenOrca oder GPT4All Falcon. Auch Metas Llama 2 lässt sich dazu installieren, vorausgesetzt, man akzeptiert deren etwas eigenwillige Open-Source-Lizenz. Die erlaubt auch die kommerzielle Nutzung des Sprachmodells, außer man kommt auf mehr als 700 Millionen monatlich aktive Nutzer. Zudem ist für den Download und den Einbau bei GPT4All neuerdings ein Sprachmodell im sogenannten .gguf-Format notwendig, ältere .bin-Dateien funktionieren nicht mehr.
Vorbote einer personalisierten KI: GPT4All. (Screenshot: Schwarze)
Das zunächst nerdig erscheinende Thema hat auf der Plattform Hugging Face einen weltweiten Marktplatz gefunden. Hier sammelt die KI-Community Open-Source-Bibliotheken und Sprachmodelle. Mehr als 50.000 Organisationen nutzen die Ressourcen von Hugging Face. So können etwa maschinelle Lernprojekte direkt ausprobiert werden. GPT4All ist dabei nur einer von vielen Protagonisten der Szene. Auch Microsoft hat hier Modelle veröffentlicht, etwa Phi‑2 als besonders kleines, aber besonders hochwertiges Modell.
Interessant wird GPT4All als vergleichsweise einfache Anwendung, die auf dem eigenen Rechner genutzt werden kann, aus zweierlei Gründen: Zum einen können private Daten fürs sogenannte Finetuning hinterlegt werden. So habe ich etwa meine eigenen Artikel von GPT4All indexieren lassen. Und kann der persönlichen KI Fragen stellen zu Themen, die ich bereits vor Jahren oder Jahrzehnten beschrieben habe.
Zum zweiten können die gewonnenen Daten in einem sogenannten Open Source Datalake beim Unternehmen Nomic aus New York eingespeist werden. Nomic hat die Anwendung GPT4All bereitgestellt. Hier gilt es freilich, genau zu wissen, was man tut. Die Daten werden unter atlas.nomic.ai öffentlich. Deswegen sind personenbezogene Daten auszuschließen und Geschäftsunterlagen gesondert zu schützen.
Punktwolke aus mehreren Millionen Tweets: Bei Atlas von Nomic lassen sich Millionen Datenpunkte hochladen und später als Basis für eigene Sprachmodelle nutzen. (Screenshot: Schwarze)
Nomic generiert daraus zunächst Punktwolken, beispielsweise aus Millionen von eingespeisten öffentlichen Tweets oder aus Wikipedia-Beiträgen. Und so schließt sich der Kreis: Die Daten können von Nomic, aber auch von anderen dazu verwendet werden, neue Sprachmodelle zu trainieren. Und es lassen sich sowohl öffentliche als auch private Datenpunkte festlegen – letztere für Informationen, die nicht für andere zugänglich sein sollen. Daraus wird letztlich Nomics Geschäftsmodell. Wer Geschäftsunterlagen vor der KI privat halten möchte, muss dafür bei Nomic zahlen.
Das vielleicht berühmteste oder zumindest langlebigste Meme des Internets heißt „Distracted Boyfriend“ und zeigt einen jungen Mann, der mit seiner Partnerin die Straße entlanggeht; als beide einer anderen Frau begegnen, schaut er ihr lüstern hinterher, seine Freundin blickt ihn dabei ungläubig-irritiert an. Die inszenierte Aufnahme stammt von dem spanischen Fotografen Antonio Guillem, aufgenommen hat er sie 2015 in der katalanischen Stadt Girona.
Zum Meme, einem viralen Internetphänomen also, wurde es auf Twitter im Jahr 2017, als jemand die Partnerin als „Kapitalismus“ betitelte, den Mann als „die Jugend“ und die Fremde als „Sozialismus“. Seither gab es Tausende Varianten dieses Bildes, in dem Untreue oder die Abkehr vom Bisherigen versinnbildlicht wurden. (Bevor jemand fragt: Ich habe die Nutzungsrechte an dem Bild für diesen Beitrag ordentlich bei iStockPhoto gekauft.)
Nun entstand daraus ein Video. X‑Nutzer @fofrAI hat die gleiche Szene mithilfe der Software Stable Video Diffusion so animiert, …
… dass die Fremde aus dem Bild läuft, der Mann ihr weiter hinterherschaut und der missbilligende Blick der Partnerin länger anhält. Es ist nur eine kurze Szene. Doch wirkte sie vor ein paar Wochen wie der Startschuss zur Animation weiterer Memes.
So animiert Esteban Orozco das berühmte lächelnde Mädchen vor einem abbrennenden Haus in lodernden Flammen.
Auch das „Success Kid“, ein kleiner Junge im grün-weißen Pullover mit geballter Faust, wird durch die KI zu neuem Leben erweckt. Das Meme stammt aus dem Jahr 2007.
Die Qualität der Sequenzen hat noch Luft nach oben. Die KI verändert die Gesichtszüge teilweise unnatürlich. Und die Kürze der Szenen deutet daraufhin, wie viel Aufwand, Energie und Kosten der Spaß verursacht.
Doch braucht es nicht viel Vorstellungskraft, was die Animationsprogramme in den nächsten Monaten und Jahren erschaffen: Aus Schnappschüssen werden real wirkende Filmchen. Ob Mona Lisa oder der Times-Square-Kuss eines Marinesoldaten, Albert Einsteins herausgestreckte Zunge oder die Beatles auf dem Zebrastreifen auf der Abbey Road – sie alle dürften von Enthusiasten künftig neue Bewegungen eingehaucht bekommen.
Wo das hinführt, zeigt eine Werbung von Coca-Cola, die das Werk unbescheiden als Masterpiece bezeichnet und berühmte Bilder in einer Ausstellung animiert. Wie ein „Making of“ der Szenen in einem weiteren Video zeigt, kam allerdings beileibe nicht der gesamte Clip aus der künstlichen Intelligenz – es war zusätzlich hoher Aufwand und viel menschliche Nachbearbeitung mittels VFX-Technik nötig. Das Video blendet zu Beginn ein, bei welcher Nachbearbeitung die KI unterstützte.
Die Vorstellungskraft der Konzerne reicht bereits weit darüber hinaus. Denn nicht nur die Herstellung von Videos, auch deren Analyse wird umgekehrt weiterer Gegenstand der KI. Das hat Google vergangene Woche gezeigt. Der Konzern schummelte allerdings bei der Vorstellung seiner künftigen KI Gemini Ultra in einem spektakulären Video. Es wirkt, als hätten die PR-Heinis bei Google den KI-Jüngern beim jüngsten Armdrücken im neuen Google Visitor Experience-Bereich gezeigt, wo der Hammer hängt:
Kurz nacherzählt: Der Vorstand von OpenAI hat Sam Altman als Chef des Unternehmens überraschend entlassen und ebenso Mitgründer Greg Brockman. Beide heuern nun beim großen Geldgeber Microsoft an.
Und mehr als 500 von rund 700 Mitarbeitern bei OpenAI haben laut Kara Swisher, Tech-Journalistin in San Francisco, erklärt, den beiden folgen zu wollen, falls der Vorstand nicht zurücktritt und die beiden nicht zurückholt.
Die Instruktion an die Maschine zur Erfindung einer Witze-KI lautet:
Du bist Hauptgagschreiber für eine wöchentliche Sendung „Gestern-Show“. Deine Aufgabe ist es, fünf herausragende Witzvorschläge zu aktuellen Ereignissen zu kreieren. Zuerst fragst Du nach dem aktuellen Ereignis und bittest um eine Beschreibung. Danach entfaltest Du Deine Kreativität, treibst den Witz auf absurde Ebenen und krönst ihn mit einer Pointe. Du solltest einfallsreich, humorvoll sein und Witze liefern, die sowohl relevant als auch übertrieben sind. Alle Antworten werden auf Deutsch gegeben.
Derart angewiesen, schlug die KI einen Bot namens „Gagmeister Gestern“ vor. Und machte fünf Vorschläge für Witze:
Ach, die OpenAI-Geschichte! Perfekt für einen Gag. Also, stellen wir uns vor:1. Die Microsoft-Übernahme: "Haben Sie gehört? OpenAI hat Sam Altman und Greg Brockman gefeuert, und die sind direkt zu Microsoft. Das erklärt endlich, warum Microsofts neueste KI plötzlich anfängt, E-Mails mit 'Mit künstlichen Grüßen, Sam und Greg' zu unterschreiben!"2. Die Mitarbeiter-Rebellion: "Über 500 Mitarbeiter von OpenAI wollen ihren Chefs zu Microsoft folgen. Ich meine, das ist wie bei einem Konzert: Wenn die Band die Bühne verlässt, folgt das Publikum... nur dass in diesem Fall das Publikum aus lauter Programmierern besteht, die verzweifelt versuchen, ihre Bürostühle durch die Notausgänge zu schieben."3. Die Vorstandssitzung: "Der Vorstand von OpenAI hat eine Krisensitzung einberufen. Es ging drunter und drüber. Einer schlug vor, die KI um Rat zu fragen, aber dann erinnerten sie sich, dass die KI jetzt bei Microsoft arbeitet und wahrscheinlich nur antworten würde: 'Haben Sie versucht, sie aus- und wieder einzuschalten?'"4. Die neue Jobbeschreibung: "Sam Altman und Greg Brockman bei Microsoft – das ist wie wenn die Beatles sich aufgelöst hätten und John Lennon und Paul McCartney bei einer Hochzeitsband angefangen hätten. Statt 'Revolution' singen sie jetzt 'Für immer und ewig'."5. Die Zukunft von OpenAI: "Und was wird jetzt aus OpenAI? Sie suchen nach einem neuen CEO. Gerüchten zufolge steht ganz oben auf der Liste ein sehr talentierter Toaster mit WiFi-Anschluss. Er hat zwar keine Führungserfahrung, aber er macht hervorragende Toasts und hat eine ausgezeichnete Verbindung zu smarten Kühlschränken."
Befragt, welcher der beste dieser „Witze“ sei, nennt die Maschine jenen mit den Programmierern, die verzweifelt versuchen, ihre Bürostühle durch die Notausgänge zu schieben.
Die Vorstellung mag als inszenierte Darstellung durchaus für eine „Gestern-Show“ taugen – aber ist sie wirklich witzig? Der Versuch, sich so etwas von der Bilder-KI Midjourney zeichnen zu lassen, scheiterte übrigens, selbst mithilfe einer Prompt-Perfektionier-Maschine.
Eine Weile noch muss sich der bekannte Hauptautor einer namhaften Show von heute wohl noch keine Sorgen um seinen Job oder seinen empfehlenswerten und stets fehlerfreien Newsletter machen.
Oder beginnen, sie mit beispielhaften Witzen zu trainieren, damit die Maschine die Anatomie eines guten Witzes lernt. In einem Kurztest hatte die Maschine dann mit angefütterten Witzetweets etwas besser die gewünschte Sprache verstanden – aber an Peter und seine Kollegen reicht dieser digitale Bursche noch nicht heran. Für den Zugang zu dem Bot ist ein Bezahlabo von ChatGPT‑4 nötig.
Erste Beispiele beschrieb ich im „Prompt der Woche“ bei der F.A.Z., weitere möchte ich hier veranschaulichen.
Da ist diese Grafik globaler Handelsströme der Welthandelsorganisation. Hochgeladen bei ChatGPT-4V, erkennt die Maschine:
Das bereitgestellte Diagramm zeigt die globalen Handelsströme des Warenhandels im Jahr 2011 in Milliarden Dollar. Hier sind die wichtigsten Informationen aus dem Diagramm:Regionale Handelswerte (in Milliarden Dollar) für 2011:Europa: 4.667Asien/Pazifik: 2.926Nordamerika: 1.103Russland/GUS: 754Nahost: 710Lateinamerika: 200Afrika: (Der genaue Wert ist nicht sichtbar, aber es scheint etwas über 150 zu sein)Interregionale Handelsströme (in Milliarden Dollar):Beispielsweise handelte Europa Waren im Wert von 906 Milliarden Dollar mit Asien/Pazifik und 476 Milliarden Dollar mit Nordamerika. Es gibt auch andere Handelsströme zwischen verschiedenen Regionen, die durch Pfeile und Zahlen dargestellt werden.Steigerung der Exporte von 2011 im Vergleich zu 2010 (in %):Nahost: +37,4%GUS/Russland: +33,9%Lateinamerika: +27,4%Asien/Pazifik: +18,0%Europa: +17,4%Afrika: +16,8%Nordamerika: +16,2%Weltweit: +19,7%Das Diagramm gibt einen Überblick über die Handelsbeziehungen und -werte zwischen den verschiedenen Regionen der Welt für das Jahr 2011. Es zeigt auch, wie sich die Exporte dieser Regionen im Vergleich zum Vorjahr gesteigert haben. Die Datenquelle ist die World Trade Organization (WTO).
Mehrere Fehler hat diese Auswertung: Der regionale Handelswert für Afrika sei nicht sichtbar, „aber es scheint etwas über 150 [Milliarden Dollar] zu sein“. Die Grafik benennt tatsächlich 77 Milliarden Dollar. Ebenso sind die Warenwerte zwischen Europa und Asien sowie Nordamerika im Text falsch angegeben. Und auch bei den regionalen Handelswerten von Russland und Nahost hat sich die Maschine vertan, offenbar die ähnlichen Ziffern 7 und 1 in der Texterkennung verwechselt.
Es gilt also, höllisch aufzupassen bei den Details.
Dabei dürfte schon helfen, statt einer JPG-Datei künftig ein PDF als Quelle hochzuladen (bisher geht das nicht). Dann entfiele die fehlerbehafte Ziffernerkennung.
Dennoch zeigt diese maschinelle Analyse die Richtung: Richtigerweise hat die KI erkannt, worum es geht. Gelingt es jetzt noch, weniger Fehler einzubauen – und darauf deutet die Entwicklung hin –, so werden neue Erkenntnisse und Interpretationen eine Sache von Sekunden. Die Maschinen erkunden Zusammenhänge.
Worum geht’s hier?
Der Prompt hierzu lautete: Worum geht’s? (Foto: Schwarze)
Im Ansatz klappt das mit dem Bild einer Stelltafel: Eine Gruppe von Medienmanagern pappte hier vor ein paar Jahren zu einem Zukunftsthema Klebezettel an die Wand, beschrieben mit Stichwörtern zur künftigen Bezahlschranke eines Online-Angebots. Die handschriftlichen Zettel wurden später von den Teilnehmern mit Punkten beklebt, je nach Einschätzung der Wichtigkeit.
Das hochgeladene Foto der Stelltafel wurde von GPT-4V auf die listige Frage „Worum geht’s?“ ausgelesen und mit drei, vier weiteren folgenden Prompts neu sortiert. Heraus kam eine Tabelle mit den wichtigsten Punkten, soweit die Maschine die Handschrift erkennen konnte. „Es scheint, als handele es sich um ein Brainstorming oder eine Planungstafel zu den Themen ‚Content‘ und ‚Zielgruppe‘.“
Die Maschine war auch in der Lage, die Anzahl der aufgeklebten Punkte bei einzelnen Klebezetteln auszuzählen. Nicht perfekt, aber es ergab eine zielführende, gute Grundlage.
Die Magie der KI ist dabei erkennbar, aber noch nicht zuverlässig und alltagsüberzeugend. Nicht jede Sauklaue wird erkannt, die Anordnung der Begriffe verrutscht teilweise. Doch auch hier stehen wir einmal mehr am Anfang einer neuen Entwicklung. Der Protokollant sorgt sich um seinen Job, der Kollege mit KI-Kenntnissen macht daraus seinen nächsten Karriereschritt.
Bild-Posts für Social Media bewerten
Für ein drittes Beispiel verweise ich auf den Kollegen Felix Beilharz: Er hat bei LinkedIn Beispiele von Social-Media-Posts untersucht, bei GPT4‑V eingespeist und um eine fachkundige Stellungnahme gebeten, sinngemäß: Wie gut ist der Post? Ist die Schrift groß genug? Die Bebilderung hilfreich? Die Maschine entdeckt in dem hochgeladenen Bild unter anderem einen mangelnden „Call to Action“, also eine klare Aufforderung, was der Leser oder die Leser als Nächstes machen sollte.
Ein Flussdiagramm interpretieren
Das vierte und letzte Beispiel für den Beginn einer neuen Zeit ist mein Liebling: Die folgende Grafik erstellte ich während der Coronazeit für die Landesregierung. Im extremen Hochformat veranschaulichte sie, wie lange damals jemand in Quarantäne gehen musste, sobald ein Kollege im Büro sich als infiziert krankmeldete.
Dem Diagramm ging ein genüsslicher Austausch mit aufgemalten Entwürfen von Zeichnungen von Fachleuten voraus.
GPT-4V ist in der Lage, dem entstandenen Flussdiagramm zu folgen – und die allgemeinen Regeln auf einen persönlichen Fall anzuwenden.
Der Prompt: Wie lange muss ich selbst in Quarantäne, wenn ich
a) mit dem infizierten Kollegen am Montag engen Kontakt hatte,
b) heute Mittwoch ist und
c) er sich krankgemeldet hat,
d) ich soeben einen positiven PCR-Test gemacht habe und
e) selbst Symptome aufweise?
Die Antwort, gekürzt: Da Sie als positiv getestete Person gelten, müssen Sie sich (weiterhin) isolieren. Sie haben zwei Optionen zur Beendigung der Quarantäne. Option 1: Sie müssen sich frühestens am 11. Tag der Isolation erneut einem PCR-Test unterziehen. Wenn dieser Test negativ ist, können Sie die Isolation frühestens am 14. Tag beenden. Option 2: Sie müssen am ersten Tag der Symptome oder am 14. Tag der Isolation einen PCR-Test durchführen lassen.
Das ist bei der Option 2 zwar nicht 100 Prozent exakt, aber nahe dran. Die KI kann künftig auch dabei helfen, Unklarheiten in bestimmten Formulierungen eines solchen Diagramms aufzustöbern. Jetzt stelle man sich das Ergebnis in ein, zwei Jahren vor, wenn auch die Bild-Erkennungs-KI erwachsen wird.
Beim Wiederfinden des Stelltafel-Bildes inmitten von 55.000 Fotos half übrigens eine andere KI: die von Apple Fotos. Sie hat alle diese Bilder untersucht, erkennt Motive, Personen, Objekte und Orte sowie handgeschriebene und gedruckte enthaltene Texte. Die Suche lief nach dem Wort „Content“, das einzige, an das ich mich erinnern konnte. Gerade hat Apple seine iCloud-Funktion für bis zu 12 Terabyte (statt bisher 2 TB) an Daten freigeschaltet.
Künstliche Intelligenz im Videokurs …
Seit vergangener Woche ist die kostenpflichtige Wolf-Schneider-KI draußen. Sie überarbeitet Texte nach den Regeln Schneiders. Ich hatte sie bereits vorab mittesten können und Ergebnisse hier beschrieben.
Gemeinsam mit Alessandro Alviani von Ippen Media und den Kollegen der Reporterfabrik gibt es parallel zum Start der WSKI ein kostenloses Online-Seminar zu Künstlicher Intelligenz im Journalismus. Alessandro gibt dazu einen Einblick in die Entwicklung, ich steuere praktische Anwendungen bei.
… und in der Branche
Praktische Lösungen für Publisher stehen auch im Mittelpunkt des Branchenmagazins Kress Pro, das einen bekannten Promptpraktikanten auf den Titel hob. Man sollte ein Geschäftsmodell daraus machen: Die Ausgabe kostet 38 Euro. Chefredakteur Markus Wiegand hat aufgeschrieben, um welche Anwendungen es im Einzelnen geht.
Eine KI-gestützte Analyse seines Postings (als Screenshot) besagt unter anderem: „Das Titelbild zeigt eine Nahaufnahme eines Mannes, der seriös und nachdenklich aussieht.“ So weit, so schmeichelhaft (Danke, Sascha!). Aber zu möglichen Kritikpunkten: „Bildauswahl: Obwohl das Foto des Mannes professionell aussieht, könnte es für einige Betrachter nicht sofort klar sein, wer er ist oder welche Rolle er im Kontext des Magazinthemas spielt.“
Grafiker müssen umdenken. Wer eine Bebilderung für ein schwieriges Thema braucht, füttert seit ein paar Monaten eine Bilder-KI mit Anweisungen. Wenn man es richtig macht, kommt dabei eine vorzeigbare Illustration heraus. Diese kann fotorealistisch oder wie eine Zeichnung aussehen, vektorisiert (wie oben) oder wie ein Ölgemälde – es kommt eben auf den Prompt an, die Regieanweisung also an die KI.
Midjourney galt bisher als der Porsche unter den generativen Bilder-KIs, obwohl die Bedienung in Verknüpfung mit der Chat-Software Discord nicht eben leicht zu erlernen war. Die Resultate aber waren und sind oft überzeugend.
Seit wenigen Tagen hat auch ChatGPT eine Bilderfunktion eingebaut. Sie heißt Dall‑E 3 und lässt sich bei der kostenpflichtigen Version GPT‑4 über den gleichlautenden Menüpunkt aktiveren. Eine Anleitung zu Dall‑E 3 kennt GPT‑4 nicht. Aber dafür gibt’s ja mich.
Der Prompt für die vier Bilder oben in GPT‑4 lautete (deutsche Übersetzung folgt):
Create an illustration depicting the role of a meticulous journalist summarizing a specific text according to strict guidelines. The scene should encompass the following elements: The Journalist at the Desk: Showcase a person seated at a desk equipped with a computer, notes, and books. The individual should appear focused, possibly holding a magnifying glass to symbolize attention to detail. A Marked and Annotated Text: Place a document on the desk with highlights, underlines, and annotations, emphasizing the requirements of the journalistic process, such as gendering job titles and avoiding certain words. Vivid Examples: Include small illustrations or symbols representing the themes or concepts described in the text, fulfilling the demand for vivid examples. Neutral Style and Color Scheme: Employ subdued, neutral colors to reflect the journalist's objectivity and neutrality. The goal is to craft a scene that illustrates both the complexity of the journalistic task and the simplicity and clarity of the requirements. The illustration should strike a balance between richness in detail and simplicity, highlighting the care and accuracy of the journalist.
Erstelle eine Illustration, die die Rolle eines sorgfältigen Journalisten beim Zusammenfassen eines spezifischen Textes nach strengen Richtlinien darstellt. Die Szene sollte folgende Elemente umfassen:Der Journalist am Schreibtisch: Zeige eine Person, die an einem mit Computer, Notizen und Büchern ausgestatteten Schreibtisch sitzt. Die Person sollte konzentriert wirken, möglicherweise mit einer Lupe in der Hand, um die Liebe zum Detail zu symbolisieren.Ein markierter und annotierter Text: Platziere ein Dokument auf dem Schreibtisch, das Hervorhebungen, Unterstreichungen und Anmerkungen aufweist. Diese sollen die Anforderungen des journalistischen Prozesses hervorheben, wie zum Beispiel das Gendern von Berufsbezeichnungen und das Vermeiden bestimmter Worte.Lebendige Beispiele: Füge kleine Illustrationen oder Symbole hinzu, die die Themen oder Konzepte im Text repräsentieren und damit den Anspruch an lebendige Beispiele erfüllen.Neutraler Stil und Farbschema: Verwende zurückhaltende, neutrale Farben, um die Objektivität und Neutralität des Journalisten widerzuspiegeln.Das Ziel ist es, eine Szene zu schaffen, die sowohl die Komplexität der journalistischen Aufgabe als auch die Einfachheit und Klarheit der Anforderungen illustriert. Die Illustration sollte ein Gleichgewicht zwischen Detailreichtum und Einfachheit finden und die Sorgfalt und Genauigkeit des Journalisten hervorheben.
Nicht ich habe diesen Prompt so ausgefeilt formuliert, sondern die KI Chat-GPT bereits vor ein paar Monaten. Damals für Midjourney. Heraus kam bei Midjourney diese Illustration:
Einen Schritt weiter geht die Anwendung Firefly 2 von Adobe. Der oben genannte Prompt ist dafür zu lang und produziert deshalb einen Fehler. Verkürze ich den Prompt, kommen diese Ergebnisse heraus – nach zusätzlichem Einstellen eines Inhaltstyps Foto (statt Kunst) und Hinzufügen der Effekte Hyperrealistisch und Goldene Stunde.
Finger und Haut wirken etwas unnatürlich. Beim Herunterladen merkt die Software an, dass in der Datei Informationen hinterlegt werden, wonach es sich um ein KI-generiertes Bild handelt.
Firefly erschließt erstmals besser die berüchtigte „Blackbox“ der künstlichen Intelligenz: Bei Midjourney und Co stocherte man bisher im Nebel, warum die Maschine gewisse Bilderelemente generierte und welche Stile sie beherrscht und warum die KI sie anwendet. Bei Firefly ist alles fein ziseliert einstellbar – fast wird man erschlagen von den Möglichkeiten. Neben der grundlegenden Festlegung auf Foto oder Kunst lassen sich zum Beispiel folgende Effekte anwenden:
Bei vielen weiteren Versuchen stellte sich heraus, dass mit Adobe Firefly am besten zu steuern ist, wie die Maschine agieren soll. Allerdings sind die Einstellungen so vielfältig, dass sie sich kaum auf Anhieb erschließen. Versuch und Irrtum sind die neuen Zeiträuber – wieder ist eine Stunde weg, ohne dass ein „perfektes“ Ergebnis vorliegt.
Andererseits kann mit den Werkzeugen nun jeder Anfänger eine schnelle Illustration für eine Präsentation zaubern. Der Aufwand beträgt etwas Gehirnschmalz für den geeigneten Prompt – und gegebenenfalls etwas Überarbeitung.
Für den Lokaljournalismus ergeben sich so neue Möglichkeiten. Wenn dann tatsächlich nach Jahrzehnten der Diskussion über eine neue Brücke am Mittelrhein eine wichtige grundlegende Entscheidung gefällt wurde – warum sollte man sie nicht mit einer Illustration dokumentieren, die die Leserinnen und Leser träumen lässt? Andererseits wird der Journalist mit einer solchen Darstellung zum Akteur: Kein Planungsbüro, kein Bauamt hat diese Entwürfe gemacht, die Kosten unabsehbar, die Realisierung in jedem Fall fraglich. Entsprechend als „KI-generiert“ zu kennzeichnen sind diese Bilder daher allemal.
Eines meiner Lieblingsbilder der KI, das einer Frau in Gucci-Klamotten (oben), lässt sich bei Firefly auch als „Referenzbild“ für neue Kreationen festlegen. Die Maschine analysiert dann das Bild und nimmt grundlegende Erkenntnisse für eine neue Darstellung zum gleichen Prompt auf. Das Ergebnis:
Die grundlegenden Elemente, Farben, Stimmungen und Details neu aufzunehmen, wird so zur neuen Möglichkeit, ohne Model, Studio, Schweiß und Tränen. Andererseits birgt die KI-Technik die Gefahr, sich in den Tiefen des Promptens zu verzetteln. Und 100-prozentig authentisch wirken die Ergebnisse weiterhin nur per Zufall.
Jemand aus Italien lädt ein Foto eines Wohnzimmers hoch und bittet um Vorschläge fürs Verschönern. Die Maschine schlägt unter anderem Akzentfarben vor, inspiriert von italienischem Dekor:
GPT‑4 vision for interior design. 🏠
I love how it’s incorporating what it knows about me in the suggestion because of custom instructions.
Eine verwirrende Ansammlung von Straßenschildern interpretiert ChatGPT: Ja, Du kannst hier ab 16 Uhr an einem Dienstag für eine Stunde parken:
Prüfungsaufgaben der Mathematik und Physik, hochgeladen als Foto, beantwortete die Maschine mit entsprechenden Formeln (allerdings sind die Antworten wohl nicht in Gänze korrekt, wie die Diskussion unter dem Tweet zeigt):
Für eine bestimmte Innenarchitektur und das dargestellte Design findet die Maschine offensichtlich richtigerweise den Begriff des „Athenischen Modernismus“ (einfach mal googeln):
Using GPT‑4 Vision to name never-before-seen architectural styles created with Midjourney.
OpenAI selbst zeigt, wie ChatGPT durch Bilder, Anleitung und Ein Foto vom Werkzeugkoffer bei einer Handwerkeraufgabe helfen kann:
Die Ikea-Anleitung wird nie wieder sein, was sie war. Die künstliche Intelligenz ChatGPT kann Bilder lesen und interpretieren. pic.twitter.com/3Swbgm0pVy
Und dann war da noch dieses Video einer ganz anderen Baustelle, von Lex Fridman mit Mark Zuckerberg, das erstmals anschaulich das viel besprochene und von vielen schon wieder totgesagte Metaverse zeigt – einen virtuellen Raum, an dem die Facebook-Schmiede Meta feilt. Die Herren tragen eigentlich schwere Brillen und Kopfhörer, doch die Technik lässt die Geräte verschwinden. Mimik und Sprache werden künstlich generiert, man wähnt sich in einem gemeinsamen verdunkelten Raum:
Alle sprechen über KI und ChatGPT. Aber Mark Zuckerberg gab gerade dieses Interview – mithilfe einer Brille, die ihn mit dem Gesprächspartner in einen gemeinsamen Raum beamt. Und die Technik verschwinden lässt. pic.twitter.com/F1QnbxCABf
… konnte ich noch nicht testen, die Funktion wird erst nach und nach ausgerollt. Viele weitere Beispiele zeigen die Leistungsfähigkeit, aber auch die Fehler. OpenAI selbst hat in einem Papier bereits untersucht, welche Gefahren von der neuen Sehfähigkeit der Maschinen ausgehen können. Sie reichen von falsch erkannten giftigen Pilzen bis zur Befeuerung von Klischees und Vorurteilen.
Und noch eine Funktion wird bei ChatGPT gerade populär: die Fähigkeit, gesprochene Prompts zu erkennen und gesprochen zu beantworten. Das ist zwar mit Blick auf die alten Damen Alexa und Siri keine Meisterleistung mehr, in Verknüpfung mit KI-Leistungen im Hintergrund aber für viele ebenso krasses Neuland.
Vielen Dank fürs Lesen von Marcus Schwarzes Newsletter! Dieser Post ist öffentlich, also zögern Sie nicht, ihn zu teilen.
Mehr zur rasanten Entwicklung der künstlichen Intelligenz bietet das Briefing Frankfurter Allgemeine Pro D:ECONOMY. Darin auch der „Prompt der Woche“ mit bisher zwei Beiträgen von mir:
Seit einigen Wochen verfolgen mich asiatische Schönheiten. Nicht diese brüsken, dürftig bekleideten Damen, die der Spamfilter ohnehin aussortiert. Die vermeintlichen Damen sind stets züchtig gekleidet und zumeist an die 20 Jahre jünger. Sie schreiben mir auf Instagram und auf WhatsApp per direkter Nachricht subtile Botschaften. „Warum wirst Du mir dauernd hier auf Insta empfohlen?“, fragt eine Amra auf Englisch. „Hallo, bist Du der Typ aus dem Business Meeting in Tampa?“, erkundigt sich eine Catalina aus Florida. „Ich habe Dein Landschaftsfoto gesehen, tolles Bild!“, findet eine Lee aus London.
Nun werden meine direkten Nachrichten auf Instagram in einem Ordner „Nachrichtenanfragen“ abgelegt, den ich selten aufsuche. Benachrichtigungen dazu sind aus, so herrschte lange Zeit Ruhe im Karton. Bei WhatsApp werden solche Botschaften normalerweise von mir gemeldet und die Absender blockiert.
Doch neugierig, wie ich bin, bin ich dann doch mal auf die Anfragen auf Instagram zum Schein eingegangen. Worauf war die Masche aus?
Quatschen mit Amra, Catalina und Lee
So quatschte ich über Tage mit Amra, Catalina und Lee, schnell kamen ein paar weitere vermeintliche Damen hinzu, die mir zuletzt ihren Kontakt angeboten hatten. Ich entdeckte wunderbare Lofts in Manhattan und Restaurants in Malaysia, fotografiert wurden edle Mahlzeiten und noch öfter das eigene Spiegelbild.
Man verliert übrigens schnell den Überblick, wer von denen welchen Beruf hat und ob man schon gefragt hat, aus welcher Stadt sie kommt. Fragt man in so einem Chat ein zweites Mal nach der Herkunft, so deutet der Tonfall der Antwort auf Entrüstung wegen des Mangels an Aufmerksamkeit, für euch ausprobiert.
Erstaunlicherweise verfügten alle angeblichen Damen ausweislich ihrer Fotos über einen gewissen Reichtum. Davon zeugten Bilder tollen Essens in teuren Restaurants, Gucci- und Dior-Handtaschen und ein Besuch auf der Ferrari-Messe in Abu Dhabi. Selten zeigten die Damen viel Haut, das wäre zu profan. Höchstens mal etwas Fitnessstudio. Und so gut wie immer reagierten die Damen fast beleidigt, wenn man nicht sofort auf eine Nachricht antwortete, Zeitzonen hin oder her.
Schneller Wechsel von Instagram auf WhatsApp
Erst vermutete ich künstliche Intelligenz im Einsatz – als ich bemerkte, dass die Antworten meine Rechtschreibfehler imitierten. Dann verquatschte sich eine der Angreiferinnen und fragte übermütig, was ich denn eigentlich dauernd mit ihren Freundinnen zu besprechen hätte? Häufig wollten die Damen schnell auf WhatsApp wechseln, das wäre ja irgendwie persönlicher. Nur auf meine listige Frage, ob wir mal telefonieren möchten, reagierte keine der Befragten wie gewünscht.
Zweimal lenkten die Gesprächspartnerinnen das Thema auf Kryptowährungen, die eine fragte rundheraus nach einer „kleinen“ Investition von 500 Dollar, ihr Onkel sei Banker und bekomme häufiger mal einen guten Tipp; Sie wissen schon, der Short-Selling-Handel. Da glaubte ich endlich zu wissen, worauf die Angreiferinnen letztlich aus waren. Doch erstaunlicherweise waren die anderen Damen nicht an meinen Kryptowährungskenntnissen interessiert, als nun ich die Gespräche zum Test darauf zu lenken versuchte.
Alle zwölf Damen waren Fake
Den wahren Grund für die massenhaften Kontaktanbahnungen habe ich am Ende nicht herausgefunden. Nur dass alle zwölf Damen Fake-Profile waren und sind, das hat mir eine Maschine der künstlichen Intelligenz (KI) bewiesen: Bei facecheck.id kann man ein Porträt einer Person hochladen, der Dienst findet dann per Gesichtserkennung ähnlich aussehende Social-Media-Profile dazu. Gesucht wird dabei nicht nach der identischen Bilddatei wie bei Google Bilder, sondern nach biometrischen Merkmalen, die die KI in einer Datenbank gespeichert hat.
Und siehe da: Plötzlich heißt die Gucci-Catalina auch mal Jini und wohnt statt in Florida in Los Angeles; mit dem gleichen Gesicht gibt es 17 LinkedIn- und zehn Twitter-Accounts mit unterschiedlichen Namen. Die Kryptowährungs-Amra ist mit demselben Bild auf Twitter mal als Phyllis, Luca und Huang-Deng unterwegs, gilt auch dort ausweislich ihrer Posts als Fachfrau für Kryptokohle. Nur Kommentare von Freundinnen oder Freunden findet man dann selten, Schönheit macht wohl einsam. Den prominentesten Chat erlebte ich mit Erin, die auch schon mal Celia heißt und namens einer Modemarke aus Korea mit einem Account 103.000 Follower zählt.
Vertrauen erschleichen, Kompromat erlangen
Was hat es letztlich mit solchem Scam, Betrug also, auf sich? Ich kann nur vermuten: Es geht darum, Vertrauen aufzubauen und zu erschleichen. Möglicherweise wollte jemand irgendwann kompromittierende Antworten von mir provozieren, um sie anschließend für eine Erpressung zu verwenden. Der gesunde Menschenverstand kann bei so viel Schönheiten schließlich schon mal verloren gehen.
Dass es sich um eine konzertierte Aktion handelte, beweist ein anderer Umstand: Als ich zwei der Damen mit den gefundenen weiteren Social-Media-Profilen konfrontierte, reagierte die eine zickig (oder bockig?), „Ich bin ich“, und die andere blockierte mich sofort. Fortan reagiertefür eine Weile die ganze Bande nicht mehr. Offenbar waren die falschen Freundinnen auch untereinander gut vernetzt.
Persönlichkeitsrechte?
Ob der Dienst Facecheck.id in Europa zulässig ist oder nach Verabschiedung des europäischen KI-Acts noch ist, steht auf einem anderen Blatt. „Nur für Lernzwecke“ schreibt der Betreiber Sentient Labs aus Indonesien. Man rühmte sich zuletzt, 400.000 Fotos und Profile von Heiratsschwindlern und Liebesbetrügern erfasst zu haben. Insgesamt soll die Maschine 550 Millionen Bilder kennen. Wie das mit dem Persönlichkeitsrecht oder dem Verwertungsrecht von Fotos einhergeht, ist schleierhaft. Und warum es von Unternehmenschef Lee Chong offenbar kein öffentliches Bild gibt, wundert auch ein wenig. Eine Homepage der Firma fand ich nicht.
Eine weit größere Gesichterdatenbank namens Clearview AI mit 30 Milliarden Bildern wurde laut einem Bericht der „New York Times“ mittlerweile in mehreren europäischen Ländern sowie in Kanada und Australien verboten. Öffentlich zugänglich ist der Dienst nicht, Strafverfolgungsbehörden in den USA nutzen ihn – unter anderem auch in Dänemark, Finnland und Frankreich. Auch Interpol soll den Dienst 320-mal eingesetzt haben. In Deutschland hat der Hamburger Datenschutzbeauftragte den Dienst als Verstoß gegen die Datenschutzgrundverordnung eingeschätzt. Italien verhängte eine Geldstraße von 20 Millionen Euro. Zuletzt machte das Unternehmen mit einem Einsatz im russischen Krieg in der Ukraine von sich reden: Ukrainische Militärs identifizierten damit Tote und russische Überläufer.
Gleiche Bilder, gleicher Film
Gerade hat wieder eine unbekannte Linda elf meiner Bilder auf Instagram durchgelikt, es geht schon wieder los. Ihre eigenen Fotos deuten auf ein sorgenfreies Leben. Komisch nur, die angebliche Dame ähnelt laut Gesichterkennungs-KI zum Verwechseln dem Model Veronika Cereda aus Kiew. Und merkwürdig – bei der prominenteren, augenscheinlich authentischen Dame mit Zehntausenden Fans taucht das gleiche Bild auf einem Schimmel reitend durchs Wasser auf. Eine Aufnahme von Frau Sereda aus Dubai im mintgrünen Kostüm mit weißer Handtasche kann Linda ebenso vorweisen. Und sogar das Video von ihr unter Wasser mit blauen Flossen gibt es in beiden Profilen.
Zufälle gibt’s.
Wenn Sie die Fake-Entlarvung einmal selbst ausprobieren möchten: Ich folge nun bis auf Weiteres mehreren dieser Fake-Damen auf Insta. Meine Followings sind öffentlich. Und wundern Sie sich nicht über manche Followings, die anders als die hier genannten Konten niedere Instinkte ansprechen. Eine gewisse Sarah Jordan ist ganz offen ein Fake mit sehr freizügigen Bildern. Der Account ist komplett KI-generiert. „Made in Australia“.
Das Konto zählt 377.000 Follower.
Zum Schutz der realen Personen, deren Bilder hier offensichtlich für Betrugsversuche missbraucht werden, habe ich in diesem Beitrag auf Screenshots der von facecheck.id gefundenen Fake-Profile verzichtet; stattdessen lud ich dort ein Bild von mir selbst hoch und ließ die Maschine nach meinem Gesicht suchen.
Zum Beispiel Dante AI: Neben GPT‑4 von OpenAI und dem Vorgängermodell GPT‑3.5‑Turbo können neuerdings auch das Open-Source-Modell Falcon LLM und das Modell LlaMA 2 von Facebook-Anbieter Meta hinterlegt werden.
Zum Beispiel Perplexity AI: Hier kann statt GPT‑4 von OpenAI wahlweise auch das Modell Claude 2 oder ein eigenes Modell von Perplexity eingerichtet werden.
Mal eben die Maschine wechseln: Bei Dante AI stehen mittlerweile mehrere Sprachmodelle zur Auswahl. (Screenshot: Schwarze)
Hinzu kommt, dass GPT‑4 nach Beobachtung von Fachleuten zuletzt an Qualität eingebüßt hat. So konnten Anwaltskanzleien vor vier, fünf Monaten der Maschine durchaus brauchbare Vorlagen fürs rechtskonforme Internet-Impressum oder eine Datenschutzerklärung entlocken. Mittlerweile produziert GPT‑4 häufiger Müll.
Auch mir erging es zuletzt häufiger so: Einst gut funktionierende Prompts fürs Zusammenfassen von Sachverhalten in meinem, der Maschine antrainierten Duktus lassen nun häufiger Anforderungen offen. Es half, auf GPT‑3.5 statt 4 zu wechseln.
GPT‑4 mit nachlassender Qualität
Die nachlassende Qualität von GPT‑4 bestätigt in Teilen eine Studie der Universitäten Stanford und Berkeley: In drei von vier getesteten Feldern nahm die Leistung zwischen März und Juni ab. Konnte die Maschine im März noch 97,6 Prozent an Primzahlen erkennen, waren es im Juni nur noch 2,4 Prozent.
Nun könnte man schlussfolgern, dass die Vielzahl aus Gagafragen aus aller Welt bei GPT‑4 in den vergangenen Monaten für Verwirrung und Durcheinander sorgt. Doch hat Open AI stets betont, dass die Chatverläufe aus Datenschutzgründen nicht in das Modell einfließen. Wahrscheinlicher ist, dass die Macher ihr Modell weiterentwickeln und vor allem Rechenzeit pro Anfrage einsparen – nicht immer zum Besten.
Wie einst in der Schrauberszene für Autos tunen heute Enthusiasten ihre zusammengeklickten KI-Maschinen, bauen etwa ein anderes Sprachmodell als GPT‑4 als neuen Motor ein. Wie sich die Motoren unterscheiden, erschließt sich bei den merkwürdigen Namen wie LlaMA und Falcon allerdings nur Spezialisten. Schrauben dann zusätzlich die Macher von GPT‑4 im Hintergrund an den Parametern, ist guter Rat teuer: Warum schwankt die Qualität der Antworten?
Die Ingenieure bei OpenAI halten sich mit Antworten dazu eher zurück. Doch scheint der Markt sich neu zu orientieren: Der Traffic auf der Webseite openai.com ging laut Similarweb von Mai (1,9 Milliarden Visits) bis Juli (1,5 Milliarden) deutlich zurück.
Wer will, baut sich vielleicht lieber auf dem eigenen Rechner eine eigene KI nach, dafür gibt es die Anwendung GPT4All. Auch hier können GPT‑4 und 3.5, aber auch LlaMA 2 und andere Modelle hinterlegt werden.
Wer sind Sie und was wollen Sie?
Hinzu kommen bei den kommerziellen Diensten Perplexity und Dante AI vorzugebende Randumstände, an denen sich die jeweiligen KIs orientieren sollen. Beim herkömmlichen GPT‑4 füllt man dafür zwei Felder aus, in denen man zunächst die eigene Rolle („Ich bin CEO und brauche klare, pointierte Antworten, auch Hinweise auf mögliche fehlerhafte Entscheidungen“) und dann die Wünsche an die Antworten formuliert („Genaue Antworten, erfinde nichts“).
Bei Perplexity soll man einmalig einstellen, wer man ist, wo man hinwill, was man sonst so macht. (Screenshot: Schwarze)
Bei Perplexity AI wird das ausführlicher. Die Maschine möchte Infos über den eigenen Standort, in welcher Sprache zu antworten ist, eigene Hobbys und Interessen, den Beruf und künftige Ziele.
Perplexity gibt dadurch genauere Antworten, die auf den Fragenden besser abgestimmt sind. Hinzuschaltbar ist außerdem ein „Copilot“: Dann antwortet Perplexity nicht einfach drauflos, sondern stellt durchaus intelligente Verständnisfragen. Oder schaut im Internet nach.
Das Nutzerinterface ist dabei gewöhnungsbedürftig. So wird fürs Zusammenfassen eines längeren Textes zurückgefragt, welchen thematischen Schwerpunkt die Zusammenfassung haben soll – und macht auch gleich kommaseparierte Vorschläge. Will man dann zwei, drei Schwerpunkte auswählen, verschwinden sie beim Anklicken und müssen manuell eingetippt werden – lästig.
Die Maschine schaut selbst im Internet nach
Interessant ist Perplexity aber auch deshalb, weil es von Haus aus Internetrecherchen zum Beantworten anstellen kann. Die Quellen werden angegeben. Auch ist es möglich, eine Datei hochzuladen und gezielt Fragen dazu zu beantworten. „Worum geht es in dem Video?“ – die Frage samt benannter YouTube-Adresse bringt die Maschine zu einer ordentlichen Zusammenfassung; wenngleich sie auch Dinge aus anderen Quellen hineinmengt, dies aber meist transparent macht.
Perplexity kostet wie GPT‑4 20 Dollar im Monat. Voreingestellt ist die Nutzung der eigenen Chatverläufe durch das Unternehmen dahinter, um das Perplexity-Sprachmodell zu verbessern. Das kann man abschalten.
Insgesamt bietet Perplexity über GPT‑4 hinausgehende Funktionen wie die Alternative Claude 2 als Sprachmodell, das viel längere Prompts erlaubt, und die schnelle Live-Suche auf Internetseiten. Beim alten GPT‑4 gelingt Vergleichbares nur mit Plugins.
Sind Perplexity und Dante damit Aspiranten auf die Nachfolge oder Wachablösung von GPT‑4? Nein, dazu fehlen ihnen weitgehend die eigenen Trainingsdaten. Doch ist der simple Austausch des Motors auch von fremden Anbietern unter der Haube etwas, das ChatGPT nicht bietet. Und dann ist auch noch die Funktion „Advanced Data Analysis“ bei GPT‑4, die das Hochladen eigener Dokumente erlaubt.
Der Markt wird unübersichtlich
Die Funktionalitäten der KIs werden weiter rasant erweitert. Der Markt wird für Laien zusehends unübersichtlich. Rund 7.500 KI-Dienste versammelt die „Übersicht“ namens There’s an AI for that. Was da jeweils unter der Motorhaube steckt und Erfolg hat, muss der Markt sichten und richten.
Und da haben wir bisher nicht über weiterhin agierende große alternative Dienste wie von Google („Bart“ und „Duet AI“) und der angeblichen europäischen Alternative Aleph Alpha aus Heidelberg gesprochen. Für Duet AI habe ich meine Freischaltung zum Testen beantragt, bei Aleph Alpha befand ich die Antwortqualität nach einem Test auf deren Spielwiese nicht konkurrenzfähig. Die Ansprüche steigen.
Die folgenden Beispiele sind im Zusammenspiel mit der künstlichen Intelligenz GPT‑4 entstanden. Sie veranschaulichen, wie man mit der KI zu akzeptablen Ergebnissen kommt. Es gilt die alte Regel, die KI wie einen 14-jährigen Praktikanten anzuweisen: sehr genau und ausführlich, klar und strukturiert. Im Detail gibt es dafür verschiedene Methoden.
Beim rollenbasierten Prompting wird das Modell aufgefordert, eine bestimmte Rolle oder Perspektive während der Interaktion einzunehmen. Es liegt nahe, der Maschine mit dem Befehl „Rolle:“ klarzumachen, was ihre Rolle ist.
Beispiele
Rolle: Hausarzt. Was empfiehlst Du bei einer Erkältung?
Rolle: Astronom im 17. Jahrhundert. Beschreibe Deine Beobachtungen des Himmels und Deine Methoden zur Kartierung der Sterne, wie sie zur Zeit von Galileo Galilei verwendet wurden.
Rolle: Fünfjähriges Kind. Erkläre mir die Funktion eines Automotors.
Versetz Dich in die Rolle eines peniblen Journalisten. Fasse mir folgenden Text in seinen Worten zusammen. Verwende dabei eine einfache Sprache und einfache Sätze. Schreibe journalistisch und neutral. Erkläre Abkürzungen. Mach den Text mit typografisch korrekten Anführungszeichen. Schreib einen Absatz mit maximal sechs Sätzen. Verwende wenn möglich plastische Beispiele. Gendere Jobs in der Form „Schülerinnen und Schüler“ oder wähle bevorzugt eine neutrale Form wie „Lehrkräfte“. Wenn mehrere Jobs hintereinanderstehen, nenne abwechselnd die weibliche und die männliche Form. Vermeide die Form „wir“ und „unsere“. Erfinde nichts hinzu und sei sehr genau. Halte Dich genau an die Länge. Ein Absatz, insgesamt sechs Sätze. Hier der Text: [Pressemitteilung hier einfügen]
Der letzte Prompt ist über die Monate gereift und hat beim Erstellen eines Newsletters gute Dienste geleistet. Allerdings hat sich GPT‑4 zwischenzeitlich gewandelt, sodass die Maschine neuerdings Dinge hinzudichtete oder sich nicht an die gewünschte Form des Genderns hielt. Zeitweise bin ich daher zu Chat-GPT 3.5 zurückgekehrt – der ältere Dienst scheint sich enger an die Prompt-Vorgaben zu halten.
Ein weiterer Dienst namens Promptperfect aus Berlin empfahl, den Prompt wie folgt umzuformulieren und weiter zu verklaren. Der Prompt wird deutlich länger. Die Wandlung ins Siezen gehe ich noch mit, bei Punkt 4 habe ich den Prompt aber noch einmal nachgeschärft:
Sie sind als penibler und unparteiischer Journalist dazu aufgefordert, einen gegebenen Text zu interpretieren und in einer klaren Zusammenfassung von sechs Sätzen wiederzugeben. Ihr Ziel ist es, die Kerninformationen des Originaltextes so einfach wie möglich zusammenzufassen, unter Einbeziehung folgender Anforderungen: 1. Verschachtelte Aussagen oder komplexe Informationen sollten durch einfache, leicht verständliche Formulierungen dargestellt werden. 2. Behalten Sie eine neutrale Blickrichtung bei und gewährleisten Sie jedwede Genauigkeit entsprechend der journalistischen Ethik.3. Wird im zugrundeliegenden Text eine Abkürzung verwendet, sollte diese in Ihrer Erklärung ausgeschrieben und erläutert werden um Irrtümer zu meiden. 4. Stellen Sie sicher, dass alle Zitate den Regeln der deutschen Rechtschreibung entsprechen. Verwenden Sie typographisch korrekte Anführungszeichen.5. Um das Verstehen komplexer Sachverhalte zu fördern, sollten passende und nachvollziehbare Beispiele eingeführt werden. 6. Berufsbezeichnungen sollten so formuliert sein, dass sie geschlechtergerecht sind. Nutzen Sie entweder Geschlechtsneutrale Begriffe oder wechseln Sie zwischen männlicher und weiblicher Form, wenn mehrere Positionen aufgelistet werden. 7. Persönliche Pronomen wie 'wir' und possessive Adjektive wie 'unsere' sollten vermieden werden. 8. Fügen Sie keine fiktionalen Informationen hinzu und stellen Sie sicher, dass sämtliche Punkte korrekt und belegbar sind. Nun folgt der zu bearbeitende Text: [Pressemitteilung hier einfügen]
Es empfiehlt sich, seine Prompts als Notizen zu speichern, zum Wiederverwenden.
Das One-Shot-Prompting erfordert, dass alle notwendigen Informationen in einem einzigen, detaillierten Prompt präsentiert werden, um die gewünschte Antwort zu erhalten.
Beispiele
Du als Informatiker, erkläre mir die Grundlagen von HTML.
Du als Historiker, der auf das Mittelalter spezialisiert ist, schildere mir die gesellschaftlichen Strukturen, die Hauptereignisse und die Bedeutung des Schwarzen Todes in Europa.
Du als Botaniker, der nie einen Baum gesehen hat, beschreibe mir, wie Bäume Fotosynthese betreiben.
Man sollte nicht davor zurückschrecken, der Maschine sehr genau ihre Aufgabe vorzugeben. Eine klare Strukturierung hilft.
Ich arbeite an einem Forschungsprojekt, das sich mit der Analyse von sozioökonomischen Faktoren in verschiedenen Ländern beschäftigt. Insbesondere konzentriere ich mich auf die Auswirkungen von Bildung, Gesundheitsversorgung, Arbeitslosigkeit und politischer Stabilität auf das Wirtschaftswachstum.1. Bildung: Wie beeinflusst das Bildungsniveau die Arbeitsmarktfähigkeiten und die Innovationsfähigkeit eines Landes? Welche Rolle spielen öffentliche und private Investitionen in die Bildung?2. Gesundheitsversorgung: Wie wirkt sich die Qualität der Gesundheitsversorgung auf die Lebenserwartung und die Arbeitsproduktivität aus? Welche Unterschiede gibt es zwischen Ländern mit universeller Gesundheitsversorgung und solchen ohne?3. Arbeitslosigkeit: Welche Faktoren tragen zur Arbeitslosigkeit bei, und wie beeinflusst sie das Wirtschaftswachstum? Wie wirken sich verschiedene Arbeitsmarktpolitiken auf die Arbeitslosenrate aus?4. Politische Stabilität: Wie beeinflusst die politische Stabilität oder Instabilität das Investitionsklima und das Vertrauen der Verbraucher? Welche Rolle spielen Regierungsführung und Korruption?Bitte gib eine detaillierte Analyse dieser Themen, unterstützt durch Beispiele und Statistiken, wenn möglich. Deine Einsichten werden mir helfen, meine Forschung zu bereichern und ein umfassendes Verständnis der Thematik zu entwickeln.
Die Struktur kann man ebenfalls von der Maschine vorschlagen lassen:
Ich will ein Buch über Bezahlschranken für Web-Publikationen im deutschsprachigen Markt veröffentlichen. Erstell mir ein ausführliches Inhaltsverzeichnis. Sieh darin auch Beispiele von „Spiegel“, FAZ, Blendle und der Stiftung Warentest vor. Zielgruppe des Buches sind Geschäftsführer und Chefredakteurinnen von Zeitungsverlagen. Schreib nach dem Inhaltsverzeichnis das erste Kapitel.
Ergebnis des letzten Prompts war ein durchaus brauchbares Inhaltsverzeichnis als Entwurf. Mit einem etwas anders formulierten Prompt ließ ich mir darüber hinaus ein noch ausführliches Inhaltsverzeichnis und die ersten drei Kapitel schreiben.
Chained Prompting verwendet eine Serie von zusammenhängenden Prompts, um ein Thema schrittweise zu erforschen oder komplexe Fragen in überschaubare Teile zu zerlegen.
Beispiel 1
Was ist Photosynthese?
Wo findet sie statt?
Beispiel 2
Was sind die Grundlagen der Quantenphysik?
Wie wird sie in der Technologie angewendet?
Was sind die ethischen Überlegungen dabei?
Beispiel 3
Was trägt ein Pinguin normalerweise?
Wie würde ein Pinguin in einem Anzug aussehen?
Zusammen mit dem Plugin „Photorealistic“ erzeugt GPT‑4 zwei neue Prompts als Beispiel, die in der Bilder-KI Midjourney weiterverarbeitet werden können. Eines der Ergebnisse (bei dem allerdings der Anzug verloren ging):
Gib mir die beiden Formeln so zum Herauskopieren, damit ich sie in einem Newsletter einfügen kann.
Mein Newsletter kann kein Latex. Was sind die Alternativen?
Gib mir das in HTML.
4. Temperatur- und Top-K-Steuerung
Die Steuerung von Temperatur und Top‑K in einem Modell beeinflusst die Vielfalt der Antworten. Niedrigere Temperaturen resultieren in vorhersehbareren Antworten, höhere Temperaturen fördern Kreativität.
Beispiele
Temperatur 0.2. Wie hoch ist der Eiffelturm?
Antwort: „Mit einer Temperatur von 0,2, die eine konservativere und genauere Antwort fördert, ist die Antwort auf die Frage: Der Eiffelturm ist 324 Meter hoch einschließlich Antennen an der Spitze. Ohne Antennen misst er etwa 300 Meter.“
Temperatur 1.0. Wie hoch ist der Eiffelturm?
Antwort: „Der Eiffelturm, dieses ikonische Meisterwerk der Ingenieurskunst, ragt stolz 324 Meter in den Pariser Himmel, wenn man die Antennen an der Spitze mitzählt. Ohne die Antennen beträgt die Höhe etwa 300 Meter, was ihn zu einem beeindruckenden Wahrzeichen der französischen Hauptstadt macht.“
Temperatur 0.7, Prompt: Entwirf ein futuristisches Verkehrssystem unter Berücksichtigung von Nachhaltigkeit und Technologie.
Temperatur 1.0, Prompt: Wie würde ein Gedicht klingen, das von einem Roboter geschrieben wurde, der nur wissenschaftliche Begriffe verwendet?
Top-K 20. Was macht einen guten Roman aus?
Antwort: „Ein guter Roman hat interessante Charaktere und eine spannende Handlung.“
Top-K 100. Was macht einen guten Roman aus?
Antwort: „Ein guter Roman kombiniert überzeugende Charaktere, einen fesselnden Handlungsverlauf, lebendige Beschreibungen, thematische Tiefe und einen einzigartigen Schreibstil.“
Mit Top‑K 100 wird die Antwort vielfältiger und detaillierter, da eine breitere Palette von Wörtern zur Auswahl steht.
Top-K 500. Entwirf ein Menü für ein futuristisches Restaurant.
Antwort: „In einem futuristischen Restaurant könnten Gerichte wie molekulare Gastronomie-Salate, 3D-gedruckte Hauptgerichte mit kultiviertem Fleisch, Nano-infundierte Desserts und Robotermixer-Cocktails serviert werden.“
Mit einem Top‑K von 500 hätte die Antwort eine große Vielfalt und Kreativität, da viele unkonventionelle und innovative Ideen einfließen könnten.
Top-K 500. Temperatur 0,1. Entwirf ein Menü für ein futuristisches Restaurant.
Mit einem Top‑K von 500 und einer sehr niedrigen Temperatur von 0,1 würde das Modell eher konservative und gebräuchliche Wörter und Phrasen wählen, auch wenn es eine breite Palette von Optionen in Betracht zieht.
„Hier ist ein Beispiel für ein Menü für ein futuristisches Restaurant unter diesen Bedingungen:
Vegane „Hühnchen“-Kroketten aus zellbasiertem Protein
Beilagen
Nanotechnologie-geschichteter Reis
Zeropollution luftgezogener Salat
Energetisch optimierte Quinoa
Desserts
Synthetische Schokoladentorte mit essbaren Lasern
Virtuell aromatisiertes Eis
Sonnenbetriebene Fruchtkompotts
Getränke
Selbstreinigende, gefilterte Wasseroptionen
Solarbetriebene Smoothies
Bioreaktor-Erfrischungen mit personalisierten Vitaminen“
Das Menü ist zwar futuristisch, aber die Auswahl eines niedrigen Temperaturwerts von 0,1 würde dazu führen, dass es eher konventionell und realistisch bleibt, auch wenn ein Top‑K von 500 eine breite Palette von Optionen zulässt.
Top-K 500. Temperatur 1,0. Entwirf ein Menü für ein futuristisches Restaurant.
Antwort: „Mit einem Top‑K von 500 und einer Temperatur von 1,0 wird das Modell eine viel kreativere und vielfältigere Antwort generieren, da diese Einstellungen eine breite Auswahl von Wörtern ermöglichen und die Wahrscheinlichkeit erhöhen, ungewöhnliche oder unerwartete Optionen zu wählen. Hier ist ein Beispiel für ein Menü für ein futuristisches Restaurant unter diesen Bedingungen:
Schwebender Gemüsesalat in Anti-Gravitations-Dressing
Zeitreise-Tapas: Geschmacksprofile aus verschiedenen Jahrhunderten
Telepathische Suppe: Passt den Geschmack an Ihre Gedanken an
Hauptgerichte
Holographisches Sushi: Fisch, der sich nach Ihren Wünschen formt
Quantum-Burger: Gleichzeitig fleischig und vegan
Interstellares Gourmet-Marsmenü mit Meteoriten-Kräutern
Beilagen
4D-gebackene Brötchen: Verändern die Textur mit jedem Bissen
Virtuelle Gemüsefelder: Ernten Sie Ihr eigenes Gemüse am Tisch
Emotionales Brot: Nimmt die Stimmung Ihres Gesprächs auf
Desserts
Unmögliche Torte: Schmeckt nach allem und nichts zugleich
Dunkle-Materie-Eiscreme: Ein Geschmack, der noch nie erlebt wurde
Gedankenzuckerwatte: Süß, wie Sie es sich vorstellen
Getränke
Stimmungscocktails: Verändert die Farbe und den Geschmack mit Ihrer Stimmung
Galaktische Weinauswahl: Von weit entfernten Sternensystemen geerntet
Hydrationsnebel: Trinken Sie, indem Sie einfach einatmen
Die Temperatur von 1,0 ermutigt das Modell, abstrakte und ungewöhnliche Ideen zu erkunden, und die hohe Top-K-Einstellung ermöglicht eine breite Auswahl an Möglichkeiten, wodurch ein einzigartiges und wirklich futuristisches Menü entsteht.
Ein Ankertext wird zu Beginn des Prompts verwendet, um ein Beispiel für die gewünschte Antwort zu geben. Dies hilft, das Modell in die richtige Richtung zu lenken.
Beispiele
Ankertext: „Es war einmal in einem Land weit, weit weg, wo Könige und Königinnen regierten, und das Volk nach Gerechtigkeit dürstete.“ Beschreibe die Französische Revolution im Stil des obigen Ankertextes.
Ankertext: „Post von Wagner. Liebe Bundestrainerin Voss-Tecklenburg, [Beispiel-Text von Bild-Kolumnist Franz Josef Wagner]“ Schreib im Stil von diesem Ankertext eine neue Kolumne, nachdem die Frauen nun nach zumeist schlechter Leistung bei der WM bereits in der Vorrunde ausgeschieden sind.
Das Ergebnis des letzten Prompts lesen Sie hier. Man mag von Wagner halten, was man will – doch wird sein Stil hiermit unsterblich.
Mit der Methode kann man der Maschine seinen persönlichen Schreibstil beibringen. Man kippe nach obigem Muster einen eigenen gelungenen Text in den Prompt – und bitte die Maschine anschließend darum, im Stil dieses Ankertextes einen neuen Beitrag zu einem neuen Thema zu verfassen. Das neue Thema umreißt man dazu mit ein paar Stichwörtern und Fakten.
6. Aufteilung komplexer Fragen
Diese Technik zerlegt komplexe Fragen in kleinere, überschaubare Teile und fragt sie einzeln. Dadurch wird eine klare und detaillierte Antwort ermöglicht.
Beispiel 1
Was ist ein Auto?
Wie funktioniert der Motor?
Beispiel 2
Was ist die Europäische Union?
Wie funktionieren ihre Institutionen?
Was sind die Vor- und Nachteile ihrer Politik?
Beispiel 3
Was ist ein Einhorn?
Wie würden sie sich in der echten Welt ernähren?
7. Rückmeldung und Iteration
Diese Technik ermöglicht eine iterative Interaktion mit dem Modell, indem sie auf vorherige Antworten aufbaut und um Klärung oder Weiterentwicklung bittet.
Beispiel 1
Beim rollenbasierten Prompten unter Kapitel 1 haben wir eine Pressemitteilung zusammenfassen lassen. Macht man das mit drei Pressemitteilungen in derselben Sitzung, kennt die Maschine nun die drei Themen – und verarbeitet folgende Prompts anschließend geschmeidig:
Mache drei Vorschläge für eine Überschrift für jeden Text. Sie soll maximal acht Wörter enthalten. Achte darauf, dass in der Überschrift Verben verwendet werden und keine Ausrufezeichen. Mache außerdem für jeden Text drei Vorschläge für eine Bebilderung zum Thema.
Erstelle eine Tabelle mit den Spalten: Stichwort, Facebook-Beitrag, Tweet, LinkedIn-Beitrag. basierend auf den Texten. Verwende Emojis bei Plattformen, auf denen es passt und üblich ist. Duze die Leser nicht. Sprich die Leser nicht direkt an. Kling seriös und neutral, nicht werbend. Verwende Emojis auf Plattformen, auf denen es passt. Mach am Ende jedes Beitrags in Klammern einen Hinweis auf die beste Sendezeit (Wochentag und Uhrzeit), um möglichst viele Leser auf der Plattform zu erreichen. Zeig mir die Tabelle.
Mein CvD will alle Social-Media-Veröffentlichungen vor Veröffentlichung abnicken. Gib mir die Tabelle als .csv-Datei.
Beispiel 2
Erkläre die Theorie der Relativität.
Wie hat sie die Physik beeinflusst?
Gibt es Kritik oder alternative Theorien?
Beispiel 3
Was ist der Sinn des Lebens?
Wie sind Philosophen zu verschiedenen Antworten auf diese Frage gekommen?
8. Stufenweise Detailanforderung
Beginnt mit einer allgemeinen Frage und fordert schrittweise detailliertere Informationen an, basierend auf den vorherigen Antworten.
Beispiel 1
Was ist ein Planet?
Erzähle mir mehr über die Erde.
Beispiel 2
Was ist Kunst?
Wie hat sich die Malerei entwickelt?
Erkläre die Bedeutung des Impressionismus.
Beispiel 3
Was ist ein Traum?
Können Tiere träumen?
Wie würden Außerirdische träumen?
9. Kontextbezogene Hinweise verwenden
Fügt dem Prompt spezifische Hinweise oder Anweisungen hinzu, um die Antwort zu steuern.
Beispiele
Erkläre mir den Wasserkreislauf, aber in einfachen Worten.
Beschreibe die Entstehung der Demokratie in Athen und vergleiche sie mit der modernen Demokratie, unter Verwendung von Beispielen aus der Politikwissenschaft.
Erkläre die Quantenmechanik in Form eines Märchens.
10. Prompt Engineering mit Multimodalität
Verwendet sowohl Text als auch andere Datentypen wie Bilder oder Töne, um multidimensionale Fragen zu stellen. Hierfür sind bei ChatGPT Plugins nötig. Die kann man sich in einem neuen Chat durch Klick auf GPT‑4 und der Auswahl von „Plugins“ aufrufen. Es können maximal drei Plugins aktiviert werden. Am Ende der Plugin-Liste gelangt man in einen Plugin-Store, wo sich weitere Angebote finden. Wie die Plugins zu bedienen sind, erschließt sich daraus noch nicht – doch unternimmt GPT‑4 aus dem Kontext heraus einen Versuch, sobald die Maschine meint, für eine bestimmte Antwort wäre ein bestimmtes Plugin geeignet.
Beispiele
Prompt gegenüber GPT‑4 mit Plugin Pixellow:
Gib mir eine Bildschreibung für das Bild [Bildadresse im Web].
Screenshot: Schwarze.
Antwort der KI: „Das Bild zeigt einen Mann mit Krawatte und einem weißen Hemd.“
Hier ist ein Bild eines Hundes. Welche Rasse könnte es sein?
Hier ist eine Aufnahme einer Symphonie. Analysiere die verwendeten Instrumente und den Musikstil.
Hier ist ein abstraktes Kunstwerk. Erzähle mir eine Geschichte, die dieses Bild repräsentieren könnte.
Die letzten drei Prompts funktionieren nicht ohne Weiteres bei GPT‑4. Nötig sind dafür Plugins – oder andere KIs, die ich bisher nur teilweise untersucht habe. Eine gute Anlaufstelle fürs Auffinden von KIs, die dafür infrage kommen, ist die Website Theres an AI for that.
11. Negative und Positive Constraints
Diese Technik verwendet spezifische Anweisungen, um einzuschränken, was die Antwort einschließen oder ausschließen soll. „Constraints“ sind übersetzt Einschränkungen oder Begrenzungen.
Beispiele
Erkläre mir den Wasserkreislauf, aber ohne den Regen zu erwähnen.
Beschreibe das Gemälde „Mona Lisa“, aber gib keine subjektiven Meinungen oder Interpretationen ab.
Erzähle mir eine Geschichte über einen König, aber ohne eine Burg oder Ritter zu erwähnen.
Beschreibe das Bild „New York City 1“ von Piet Mondrian. Dann hänge es anders herum auf. Beschreibe das Bild erneut.
12. Interaktive Storytelling-Techniken
Diese Technik verwendet narrative Elemente oder Rollenspiel, um die Interaktion ansprechender und kontextualisierter zu gestalten.
Beispiele
Du bist ein Detektiv im viktorianischen London. Wie würdest du einen Juwelendiebstahl untersuchen?
Du bist ein Entdecker auf einem fremden Planeten. Beschreibe deine Entdeckungen, die Flora, Fauna und mögliche Lebensformen.
Du bist eine sprechende Katze in einer magischen Welt. Erkläre mir die Gesetze der Physik.
Das letzte Beispiel beweist: Maschinen entwickeln Humor.
13. Hypothesen testen
Formuliert spezifische Hypothesen und fragt das Modell, diese zu überprüfen oder zu widerlegen.
Beispiele
Die Erde ist flach. Überprüfe diese Aussage.
Hypothese: Schokolade verursacht Akne. Untersuche diese Behauptung anhand von wissenschaftlichen Studien.
Hypothese: Pflanzen können Gefühle empfinden. Was sagt die Wissenschaft dazu?
14. Metakommunikation
Hierbei wird dem Modell direkt erklärt, wie die Antwort präsentiert werden soll.
Beispiele
Erkläre mir den Wasserkreislauf in der Form eines Gedichts.
Fasse den Inhalt von Goethes „Leiden des jungen Werther“ in einer Tabelle zusammen, die Charaktere, Handlung und Themen darstellt.
Interessanterweise gibt hier GPT‑4 hier eine Warnung aus, dass die generierte Antwort gegen Richtlinien verstoßen könnte – offenbar wegen des Themas Suizid.
Beschreibe die Theorie der Evolution als Kochrezept.
15. Personalisierte Prompts
Diese Technik passt den Prompt an den spezifischen Benutzer oder Kontext an.
Beispiele
Du als Biologe, erkläre mir die Photosynthese.
Du als Historiker mit Schwerpunkt auf dem Römischen Reich, analysiere die sozialen Strukturen und ihre Auswirkungen auf die heutige Gesellschaft.
Du als Kind, das in den 1950er Jahren aufgewachsen ist, beschreibe mir ein Smartphone.
16. Simulierte Mehrbenutzer-Interaktion
Simuliert eine Diskussion zwischen verschiedenen Benutzern oder Experten, um eine facettenreiche Antwort zu erhalten.
Beispiele
Ein Mathematiker und ein Physiker diskutieren über die Schwerkraft. Wie sieht das Gespräch aus?
Ein Philosoph, ein Biologe und ein Künstler diskutieren über die Bedeutung des Lebens. Wie gestaltet sich die Debatte?
Ein Koch, ein Astronaut und ein Zeitreisender diskutieren über die beste Methode, Kaffee zuzubereiten. Wie verläuft das Gespräch?
Referenziert spezifische historische oder kulturelle Informationen, um Antworten in einem spezifischen Kontext zu erhalten.
Beispiele
Erkläre mir die Dampfmaschine im Kontext der Industriellen Revolution.
Analysiere die Rolle von Frauen in der amerikanischen Gesellschaft während des 19. Jahrhunderts.
Wie hätte das Internet ausgesehen, wenn es im antiken Rom erfunden worden wäre?
18. Visualisierung fordern
Fordert das Modell auf, eine Antwort in Form einer Visualisierung wie einem Diagramm, einer Tabelle oder einem Flowchart zu liefern. Zum Einsatz kommen die Plugins Diagrams und Draw.
Erstelle eine Tabelle, die die unterschiedlichen Wirtschaftssysteme vergleicht.
Gestalte einen Flowchart, der zeigt, wie eine Idee zu einem Gesetz wird, aber im Stil eines Brettspiels.
Illustration: KI-generiert/GPT‑4/Schwarze.
19. Emotionale Nuancen
Fragt das Modell, die Antwort mit einer bestimmten emotionalen Tönung oder Perspektive zu formulieren.
Beispiele
Beschreibe einen Sonnenuntergang aus der Sicht einer verliebten Person.
Erzähle die Geschichte der französischen Revolution, aber mit einem traurigen Unterton.
Erkläre die wissenschaftliche Methode, aber als wäre es ein romantisches Gedicht.
20. Ad-hoc-Kombination von Techniken
Kombiniert mehrere der oben genannten Techniken ad-hoc, um eine multifokale und maßgeschneiderte Antwort zu erhalten.
Beispiele
Als Detektiv (Interaktive Storytelling-Techniken), erkläre mir die DNA (Personalisierte Prompts) in Form eines Gedichts (Metakommunikation).
Beschreibe die wirtschaftlichen Prinzipien des Mittelalters (Historischen Kontext nutzen) aus der Sicht eines Kaufmanns (Personalisierte Prompts), und präsentiere es als Tabelle (Visualisierung fordern).
Ein Mathematiker und ein Dichter (Simulierte Mehrbenutzer-Interaktion) diskutieren über die Liebe (Emotionale Nuancen) in der Renaissance (Historischen Kontext nutzen), und sie tun dies in Form eines Rap-Battles (Metakommunikation).
Den „Code Interpreter“ von ChatGPT, eine hinzuschaltbare Komponente der KI, haben wir noch gar nicht genutzt. Dazu gibt’s in einem der nächsten Newsletter mehr.
Unterdessen bekommen KI- und Cloud-Giganten wie Microsoft, Amazon, Google, Alibaba und IBM einen weiteren, womöglich mächtigen Konkurrenten. Dazu am Ende dieses heute ausführlichen Newsletters mehr.
Illustration: KI-generiert/Midjourney/Schwarze. Prompt: Design a clear diagram that compares different AI services, possibly with symbols or logos for each service –s 750 –ar 16:9
Integration von KI in Unternehmensprozesse
Es geht um nicht weniger als den heiligen Gral der KI-Modelle: bequem auffindbares Unternehmenswissen, das das Unternehmen garantiert nicht verlässt. „Welcher unserer Standorte hat im Verhältnis zu der Anzahl der Mitarbeiter den geringsten Umsatz erzielt?“ Das wäre eine denkbare Frage, die früher mithilfe von Excel und einem funktionierenden Controlling beantwortet werden konnte und künftig von einem internen ChatGPT in menschlicher Sprache abgefragt werden könnte.
KI-generiert/Midjourney/Schwarze. Prompt: /imagine A modern drug store office showcasing AI technology on multiple screens aiding in data analysis, people sitting in front of it, Medium: digital photography, Style: futuristic and clean, Lighting: bright daylight with soft shadows, Colors: cool blue tones and neutral grays, Composition: Nikon D850 DSLR camera, 24–70mm f/2.8 lens, Resolution 45.7 megapixels, ISO sensitivity: 64, Shutter speed 1⁄200 second –ar 16:9 –v 5.1 –style raw –s 750 –no science fiction
Microsofts Beitrag zur KI-Technologie
Diese Verknüpfung von KI mit internen Unternehmensdaten ist vermutlich eine der Schlüsseltechnologien der kommenden Monate und Jahre.
Microsoft als Geldgeber hinter dem KI-Platzhirschen OpenAI mit ChatGPT hat die KI-Technik vor Kurzem in seine Azure-Cloud-Software eingebaut und jetzt zum allgemeinen Aufsetzen eigener Anwendungen für IT-Abteilungen freigeschaltet. Das hilft Unternehmen, interne Unterlagen und Geschäftsgeheimnisse im eigenen Haus zu behalten – was regelmäßig schiefgehen könnte, wenn Mitarbeiterinnen und Mitarbeiter beim herkömmlichen ChatGPT mit künstlicher Intelligenz quatschen. Ein kommerzielles KI-Angebot von Microsoft an die Unternehmen belässt zudem ergänzende interne und wahrscheinlich vertrauliche Daten auf den von Unternehmen angemieteten Servern – wahlweise auch auf Servern in Deutschland.
Begrenzungen und Möglichkeiten der Bots
Nicht zu verwechseln ist Microsofts Azure-KI mit den sogenannten Power Virtual Agents von Microsoft – einem weiteren Produkt, das das US-Unternehmen nun anbietet. Das sind Bots, die Microsoft-Kunden zum Beispiel für ihre Kundenbetreuung über ihre Website erstellen können. Die Maschine verwendet dann die öffentlich zugänglichen Informationen der Website. Sie beantwortet etwa Fragen wie „Was sind Ihre Öffnungszeiten?“ Erst, wenn zusätzliche eigene interne Quellen verwendet werden sollen, kommt die Azure-Cloud-Software ins Spiel. Bislang sind die Power Virtual Agents auf die US-Region und die englische Sprache begrenzt.
Illustration: KI-generiert/Midjourney/Schwarze. Prompt: a diagrammatic drawing of a chatbot by Microsoft, on white ground and with a white background –s 750
Irrtümer über das Lernen der KI
Ein allgemeiner Irrtum ist, dass die KI automatisch aus allen Prompteingaben, aus hochgeladenen Geschäftsplänen in Excel-Dateien oder auch nur aus korrigierenden Prompts dauerhaft lernt. Die Maschine lernt „nur“ für die Dauer einer Sitzung aus vorangegangenen Eingaben des jeweiligen Nutzers und nur für diese Person. Startet man eine neue Sitzung, ist das in der vergangenen Sitzung erlernte Wissen futsch.
Es wäre allerdings auch ein starkes Stück, würde das Sprachmodell fehlerhafte oder bösartig eingebaute Fehler aus der Nutzerschaft für bare Münze nehmen.
Trainingsdaten und Zuverlässigkeit
Stattdessen greifen die Modelle auf riesige Sätze von geprüften Trainingsdaten zurück. Die können zwar auch fehlerhafte Daten enthalten, etwa aus der Wikipedia, doch haben die KI-Hersteller Methoden entwickelt, überwiegend glaubhafte Quellen fürs Training zu nutzen. Dazu gehören Patentanmeldungen, kategorisierte und für hochwertig angesehene Websites von Zeitungen und Online-Diensten, aber auch scribd.com, das Netflix für Bücher. Dies gilt zumindest für die KI von Google, Bard. Die populärere OpenAI-Anwendung ChatGPT hat seine Trainingsdaten geheim gehalten.
KI-generiert/Midjourney/Schwarze. Prompt: /imagine A man in a suit picking through a haystack to find some hidden needles. Lighting: bright daylight with soft shadows, Colors: cool blue tones and neutral grays, Composition: Canon R3 camera, 24–70mm f/2.8 lens, Resolution 45.7 megapixels, ISO sensitivity: 64, Shutter speed 1⁄200 second –ar 16:9 –v 5.1 –style raw –s 750 –no science fiction
Anforderungen an KI im Unternehmenskontext
Für Unternehmen und Behörden reichen die bisher entstandenen KIs und ihre Antwortqualität in den allgemein zugänglichen Diensten wie ChatGPT oft nicht aus.
Für eine schnelle Zusammenfassung eingereichter Texte, für Überschriftenvorschläge und Social-Media-Beiträge mag die Technik neue Effizienz schaffen. Und auch das schnelle Marketingkonzept oder durchaus kluge Ideenskizzen lassen sich durch KI generieren. Das letzte Wort muss bei gegenwärtigen Stand stets der Mensch haben.
Separate Prüfung und Fine-Tuning
Geht es hart um belastbare Daten, ist eine separate Prüfung erforderlich. Mal ergänzen die Maschinen sich widersprechendes Wissen aus unterschiedlichen Quellen. Mal halluzinieren sie Sachverhalte hinzu, weil sie eine gewisse Wahrscheinlichkeit vermuten. Und auch eine Vielzahl von Diensten wie MottleBot, AskAI, Dante und vielen anderen Chatbots haben es noch nicht geschafft, aus selbst hochgeladenen Daten zuverlässig „die richtigen“ Antworten zu generieren.
Nötig ist deshalb ein sogenanntes Fine-Tuning: Dabei werden eigene Dokumente und Datenbanken in der KI zusätzlich zu den Trainingsdaten vom Hersteller hinterlegt. Das geben MottleBot, AskAI und Co. zwar vor, doch mangelt es oft an der richtigen Aufbereitung dieser zusätzlichen Traingsdaten. In der Folge kommen diese Modell durcheinander.
Anforderungen und Validierung
Wer dies schon einmal getestet hat, wird mit gewissen Anforderungen an die selbst ergänzten Daten konfrontiert. Nötig ist oft ein spezielles Dateiformat, zum Beispiel .json. Und eine Klassifikation gegebener Antworten im Sinne von „Die Maschine hatte leichtes Spiel, hierzu eine Antwort zu finden, denn in den Fine-Tuning-Daten fand sich eine fast gleichlautende Information“.
Hieraus wiederum müsste die frischgebackene KI-Abteilung eines Unternehmens eine Validierung vornehmen, sprich: Von den 100 gegebenen Antworten auf 100 Testfragen waren x falsch beantwortet – also erstellen wir zusätzliche Fine-Tuning-Daten, die die Fehler adressieren und die Maschine anweisen, bestimmte Antworten neu zu formulieren.
KI-generiert/Midjourney/Schwarze, Prompt: /imagine a magnifying glass over an Excel sheet full of data, symbolizing the search for data impurities, corporate, Composition: Canon R3 camera, 24–70mm f/2.8 lens, Resolution 45.7 megapixels, ISO sensitivity: 64, Shutter speed 1⁄200 second –ar 16:9 –v 5.1 –style raw –s 750 –no science fiction
Parameter und Kreativität in KI
Auch diese Arbeit stellt noch nicht 100-prozentig fehlerfreie Antworten von KI-Diensten sicher. Aber auf dem Weg dahin ist man.
Zusätzlich kommen bei den bestehenden KIs bestimmte Parameter ins Spiel. So kann man bei OpenAI eine „temperature“ von „0.1“ einfordern – im Grunde möglichst wenig Hitzewallungen: Die Maschine soll nichts erfinden, sich nur an die wahrscheinlichsten Fakten halten. Möchte dagegen jemand eine möglichst phantasievolle Antwort von der KI, etwa den nächsten ungeahnten Schwenk in der Geschichte für eine Romanfigur, käme eine „temperature“ von „0.9“ in Betracht. Das heißt: Es darf jetzt auch abseitig, absurd oder phantasievoll werden.
Möglichkeiten fürs Aufsetzen einer eigenen KI
Fürs Aufsetzen einer eigenen KI gibt es mehrere Möglichkeiten. Denkbar sind unter anderem folgende drei Varianten:
Nutzung von OpenAI (oder einem anderen Modell) per Verknüpfung mittels API-Technik im Hintergrund
Nutzung eines lokal heruntergeladenen Large-Language-Models ohne Verknüpfung mit einem kommerziellen Dienst
Nutzung von ChatGPT über die neue Azure-Server-Umgebung von Microsoft.
Erste Variante: Implementierung und Kosten
Die einfachste erste Variante bestünde in einer internen Webseite, die ähnlichen wie ChatGPT ein Chatformular enthält und im Hintergrund über einen API-Schlüssel den US-Dienst OpenAI befragt – und im kleinen Rahmen gewisse Vorgaben macht wie „Antworte stets auf deutsch.“ So ein Schlüssel kostet ein paar hundertstel US-Cent für jede Anfrage, je nach Länge der Frage und der Antwort.
Die zweite Möglichkeit für eine eigene KI wäre eine eigene GPT-Version auf einem eigenen Server. Die ist womöglich einfacher umgesetzt, als man denkt. Ein eigener Server schreckt Sie ab? Verständlich. Doch hat eine freie Software mittlerweile derart an Qualität zugelegt, dass sie auch vom Otto-Normal-Verbraucher zumindest im Hausnetz oder auch nur auf dem eigenen Windows-PC, dem Mac oder dem Linux-Rechner eingerichtet werden kann.
Illustration: KI-generiert/Midjourney/Schwarze. Prompt: /imagine Design a clear diagram that compares different AI services, possibly with symbols or logos for each service. –s 750
Zweite Variante: Open-Source-Alternativen
Dazu muss man wissen, dass OpenAI die grundlegenden Daten seines Sprachmodells (Large-Language-Model, LLM) nicht als Open-Source anbietet. Nötig ist stattdessen der besagte API-Key, damit der lokale Server oder Rechner dann bei jeder Abfrage die Schatzkammer von OpenAI in den USA öffnet – und dafür Geld verlangt.
Eine Alternative sind andere LLMs, die als Open Source zur Verfügung stehen. Damit kann man dann eine eigene KI aufsetzen und sie mit zusätzlichen eigenen Dateien bekanntmachen. Wer sich da umsehen möchte: Die freie Software GPT4ALL ermöglicht die lokale Installation eines Chatbots – und anschließend die Auswahl diverser freier LLMs, ohne dass die Maschine in die USA telefoniert. OpenAI, Microsoft und Google bleiben außen vor.
Aufstieg alternativer Chat-Modelle
Diese Modelle tragen dann Namen wie Snoozy (Open-Source), Vicuna (Open-Source) oder Llama‑2–7B Chat. Letzteres stammt von Facebook-Anbieter Meta, ist auch kommerziell nutzbar und funktioniert ohne Nach-Hause-Telefonieren zu Facebook. Die Open-Source-Modelle und das von Facebook antworten qualitativ noch nicht so gut wie ChatGPT. Aber sie holen stetig auf. Das erkennt offenbar auch Google an: „Wir brauchen die mehr als sie uns“, heißt es in einem geleakten Dokument über die Open-Source-Gemeinde in Sachen KI.
Die Programmierung der freien Software GPT4ALL hat binnen zwei Monaten so gute Fortschritte gemacht, dass sich die eigene KI binnen einer halben Stunde zusammenklicken lässt.
Schaffung eines Ökosystems für LLMs und KIs
Im Grunde entsteht hier gerade ein Ökosystem für LLMs und KIs, das wie weiland die Wikipedia eine Gefahr für die großen Internet-Player heraufbeschwören könnte. Während OpenAI, Microsoft und Google für viel Geld Trainingsdaten erstellen, stehen über Open-Source die ersten privat zusammengestellten Trainingsdaten bereit. Und zwar solche, die sich ohne kryptische Befehle auf der Konsole, statt dessen über einigermaßen verständliche Fenster zusammenstellen lassen.
Wer möchte ausschließen, dass hier als nächstes Enthusiasten ein verteiltes Modell fürs Generieren von Trainingsdaten erfinden? Verteilt auf viele einzelne Beitragende, die private Rechenzeiten zur Verfügung stellen? Es scheint angesichts der gewonnenen Qualität der Nutzeroberfläche von GPT4ALL, als entstünde dort gerade eine Art KIpedia. Jetzt müssten nur noch möglichst viele die möglichst vielen Inhalte für die Trainingsdaten beitragen.
Mit GPT4All kann mann seine eigene KI zusammenklicken. Die Software erlaubt den Download und die Installation eines Large-Language-Modells, wie hier eines von Facebook. Die Ergebnisse haben noch Luft nach oben, für erste Vorschläge taugt das Modell durchaus – und ist manchmal unfreiwillig komisch. (Screenshot: Schwarze)
Open Source Datalake sammelt Trainingsdaten
Die sind bereits in der Mache. Ein „Open Source Datalake“ sammelt frei verfügbare Trainingsdaten. Die kann jedermann in GPT4ALL mit der Netzgemeinde teilen. Mitsamt einem Like oder Dislike dazu, wie gut die Antwort war. In der Voreinstellung des Programms ist diese Funktion ausgeschaltet.
Entsteht hier eine Art KIpedia? GPT4All, eine auf Open Source basierende Software, sammelt Trainingsdaten seiner Nutzer. Konversationen landen auf Wunsch in einem „Datalake“ – und können für neue Modelle herangezogen werden. (Screenshot: Schwarze)
Hinter GPT4ALL steckt übrigens nicht nur eine Truppe von Nerds aus der Open-Source-Szene weltweit, sondern unter anderem Nomic AI. Das ist ein Unternehmen aus New York, 2022 gegründet. Einer der Investoren ist Amjad Masad, Gründer von Diensten wie der Programmierhilfe Replit und ehemals Angestellter bei Yahoo, nunmehr auch Investor bei vielversprechenden KI-Diensten wie Perplexity, Runway (Video) und Bluesky (Social Media).
Dritte Variante: Microsofts Azure-Serverdienste
Die dritte Variante für Unternehmen oder Leute, die eine eigene KI einrichten möchten, ist die von Microsoft über deren Azure-Serverdienste. Das wäre ein Unterfangen für die heimische IT- (Pardon:) KI-Abteilung. Abgesehen vom Aufwand fürs Installieren kommen dann monatliche Lizenzkosten ins Spiel, die sich nach der Anzahl der Nutzerinnen und Nutzer bemessen. Und fürs Trainieren mit eigenen Unternehmensdaten entstehen weitere Aufwände und Kosten.
So sind die Drogeriemarktkette dm und Bosch nur jüngste Beispiele einer Entwicklung, die die KI in viele Unternehmen bringen dürfte. Nach einer Grafik im Newsletter „Digitale Transformation“ von Netzoekonom.de ist bei 30,2 Prozent der deutschen Industrie der Einsatz von KI Realität oder geplant. Bei weiteren 38,7 Prozent wird der Einsatz diskutiert.
dm-Vorstoß wird stark diskutiert
Wie stark die Diskussion ist, zeigen die vielen Fragen und Antworten von dm auf ihren LinkedIn-Beitrag zu dmGPT: „Effizienzgewinn ist nicht unser Fokus. Vielmehr möchten wir unseren Mitarbeiterinnen und Mitarbeitern das Arbeitsleben erleichtern, sie im Umgang mit neuen Technologien befähigen und die gesamte Arbeitsgemeinschaft in den Umgang mit künstlicher Intelligenz einbeziehen“, schrieb dort dm. „Den typischen Einsatzzweck gibt es (noch) nicht. Alle dürfen die Anwendung nun im Kontext ihrer Aufgaben ausprobieren und herausfinden, wo der Einsatz Sinn macht und wo eher nicht.“