Grafiker müssen umdenken. Wer eine Bebilderung für ein schwieriges Thema braucht, füttert seit ein paar Monaten eine Bilder-KI mit Anweisungen. Wenn man es richtig macht, kommt dabei eine vorzeigbare Illustration heraus. Diese kann fotorealistisch oder wie eine Zeichnung aussehen, vektorisiert (wie oben) oder wie ein Ölgemälde – es kommt eben auf den Prompt an, die Regieanweisung also an die KI.
Midjourney galt bisher als der Porsche unter den generativen Bilder-KIs, obwohl die Bedienung in Verknüpfung mit der Chat-Software Discord nicht eben leicht zu erlernen war. Die Resultate aber waren und sind oft überzeugend.
Seit wenigen Tagen hat auch ChatGPT eine Bilderfunktion eingebaut. Sie heißt Dall‑E 3 und lässt sich bei der kostenpflichtigen Version GPT‑4 über den gleichlautenden Menüpunkt aktiveren. Eine Anleitung zu Dall‑E 3 kennt GPT‑4 nicht. Aber dafür gibt’s ja mich.
Der Prompt für die vier Bilder oben in GPT‑4 lautete (deutsche Übersetzung folgt):
Create an illustration depicting the role of a meticulous journalist summarizing a specific text according to strict guidelines. The scene should encompass the following elements: The Journalist at the Desk: Showcase a person seated at a desk equipped with a computer, notes, and books. The individual should appear focused, possibly holding a magnifying glass to symbolize attention to detail. A Marked and Annotated Text: Place a document on the desk with highlights, underlines, and annotations, emphasizing the requirements of the journalistic process, such as gendering job titles and avoiding certain words. Vivid Examples: Include small illustrations or symbols representing the themes or concepts described in the text, fulfilling the demand for vivid examples. Neutral Style and Color Scheme: Employ subdued, neutral colors to reflect the journalist's objectivity and neutrality. The goal is to craft a scene that illustrates both the complexity of the journalistic task and the simplicity and clarity of the requirements. The illustration should strike a balance between richness in detail and simplicity, highlighting the care and accuracy of the journalist.
Erstelle eine Illustration, die die Rolle eines sorgfältigen Journalisten beim Zusammenfassen eines spezifischen Textes nach strengen Richtlinien darstellt. Die Szene sollte folgende Elemente umfassen:Der Journalist am Schreibtisch: Zeige eine Person, die an einem mit Computer, Notizen und Büchern ausgestatteten Schreibtisch sitzt. Die Person sollte konzentriert wirken, möglicherweise mit einer Lupe in der Hand, um die Liebe zum Detail zu symbolisieren.Ein markierter und annotierter Text: Platziere ein Dokument auf dem Schreibtisch, das Hervorhebungen, Unterstreichungen und Anmerkungen aufweist. Diese sollen die Anforderungen des journalistischen Prozesses hervorheben, wie zum Beispiel das Gendern von Berufsbezeichnungen und das Vermeiden bestimmter Worte.Lebendige Beispiele: Füge kleine Illustrationen oder Symbole hinzu, die die Themen oder Konzepte im Text repräsentieren und damit den Anspruch an lebendige Beispiele erfüllen.Neutraler Stil und Farbschema: Verwende zurückhaltende, neutrale Farben, um die Objektivität und Neutralität des Journalisten widerzuspiegeln.Das Ziel ist es, eine Szene zu schaffen, die sowohl die Komplexität der journalistischen Aufgabe als auch die Einfachheit und Klarheit der Anforderungen illustriert. Die Illustration sollte ein Gleichgewicht zwischen Detailreichtum und Einfachheit finden und die Sorgfalt und Genauigkeit des Journalisten hervorheben.
Nicht ich habe diesen Prompt so ausgefeilt formuliert, sondern die KI Chat-GPT bereits vor ein paar Monaten. Damals für Midjourney. Heraus kam bei Midjourney diese Illustration:
Beide Ergebnisse halte ich für beachtlich.
Einen Schritt weiter geht die Anwendung Firefly 2 von Adobe. Der oben genannte Prompt ist dafür zu lang und produziert deshalb einen Fehler. Verkürze ich den Prompt, kommen diese Ergebnisse heraus – nach zusätzlichem Einstellen eines Inhaltstyps Foto (statt Kunst) und Hinzufügen der Effekte Hyperrealistisch und Goldene Stunde.
Finger und Haut wirken etwas unnatürlich. Beim Herunterladen merkt die Software an, dass in der Datei Informationen hinterlegt werden, wonach es sich um ein KI-generiertes Bild handelt.
Firefly erschließt erstmals besser die berüchtigte „Blackbox“ der künstlichen Intelligenz: Bei Midjourney und Co stocherte man bisher im Nebel, warum die Maschine gewisse Bilderelemente generierte und welche Stile sie beherrscht und warum die KI sie anwendet. Bei Firefly ist alles fein ziseliert einstellbar – fast wird man erschlagen von den Möglichkeiten. Neben der grundlegenden Festlegung auf Foto oder Kunst lassen sich zum Beispiel folgende Effekte anwenden:
weitere Filter von Fischauge bis Isometrisch,
Materialen wie Kohle, Holzschnitzerei oder Marmor,
sogenannte Konzepte von Chaotisch bis Göttlich,
Farbgebungen von schwarz-weiß bis Pastell,
Beleuchtungen von Gegenlicht bis Goldene Stunde,
Kompositionen von Nahaufnahme bis Vogelperspektive.
Die Möglichkeiten bei Firefly sind kombinierbar und somit endlos.
Ein bereits früher verwendetes Beispiel einer neuen Brücke über dem Mittelrhein brachte seinerzeit bei Midjourney folgendes Ergebnis:
Bei GPT‑4 mit Dall‑E 3 tobt sich die Maschine bei dem gleichen Prompt aus und schießt übers Ziel hinaus:
Adobe Firefly 2 dagegen setzt stärker auf die Realität, fast scheint man die Loreley im Hintergrund zu erkennen:
Bei vielen weiteren Versuchen stellte sich heraus, dass mit Adobe Firefly am besten zu steuern ist, wie die Maschine agieren soll. Allerdings sind die Einstellungen so vielfältig, dass sie sich kaum auf Anhieb erschließen. Versuch und Irrtum sind die neuen Zeiträuber – wieder ist eine Stunde weg, ohne dass ein „perfektes“ Ergebnis vorliegt.
Andererseits kann mit den Werkzeugen nun jeder Anfänger eine schnelle Illustration für eine Präsentation zaubern. Der Aufwand beträgt etwas Gehirnschmalz für den geeigneten Prompt – und gegebenenfalls etwas Überarbeitung.
Für den Lokaljournalismus ergeben sich so neue Möglichkeiten. Wenn dann tatsächlich nach Jahrzehnten der Diskussion über eine neue Brücke am Mittelrhein eine wichtige grundlegende Entscheidung gefällt wurde – warum sollte man sie nicht mit einer Illustration dokumentieren, die die Leserinnen und Leser träumen lässt? Andererseits wird der Journalist mit einer solchen Darstellung zum Akteur: Kein Planungsbüro, kein Bauamt hat diese Entwürfe gemacht, die Kosten unabsehbar, die Realisierung in jedem Fall fraglich. Entsprechend als „KI-generiert“ zu kennzeichnen sind diese Bilder daher allemal.
Eines meiner Lieblingsbilder der KI, das einer Frau in Gucci-Klamotten (oben), lässt sich bei Firefly auch als „Referenzbild“ für neue Kreationen festlegen. Die Maschine analysiert dann das Bild und nimmt grundlegende Erkenntnisse für eine neue Darstellung zum gleichen Prompt auf. Das Ergebnis:
Die grundlegenden Elemente, Farben, Stimmungen und Details neu aufzunehmen, wird so zur neuen Möglichkeit, ohne Model, Studio, Schweiß und Tränen. Andererseits birgt die KI-Technik die Gefahr, sich in den Tiefen des Promptens zu verzetteln. Und 100-prozentig authentisch wirken die Ergebnisse weiterhin nur per Zufall.
Die folgenden Beispiele sind im Zusammenspiel mit der künstlichen Intelligenz GPT‑4 entstanden. Sie veranschaulichen, wie man mit der KI zu akzeptablen Ergebnissen kommt. Es gilt die alte Regel, die KI wie einen 14-jährigen Praktikanten anzuweisen: sehr genau und ausführlich, klar und strukturiert. Im Detail gibt es dafür verschiedene Methoden.
1. Rollenbasiertes Prompting
Beim rollenbasierten Prompting wird das Modell aufgefordert, eine bestimmte Rolle oder Perspektive während der Interaktion einzunehmen. Es liegt nahe, der Maschine mit dem Befehl „Rolle:“ klarzumachen, was ihre Rolle ist.
Beispiele
Rolle: Hausarzt. Was empfiehlst Du bei einer Erkältung?
Rolle: Astronom im 17. Jahrhundert. Beschreibe Deine Beobachtungen des Himmels und Deine Methoden zur Kartierung der Sterne, wie sie zur Zeit von Galileo Galilei verwendet wurden.
Rolle: Fünfjähriges Kind. Erkläre mir die Funktion eines Automotors.
Versetz Dich in die Rolle eines peniblen Journalisten. Fasse mir folgenden Text in seinen Worten zusammen. Verwende dabei eine einfache Sprache und einfache Sätze. Schreibe journalistisch und neutral. Erkläre Abkürzungen. Mach den Text mit typografisch korrekten Anführungszeichen. Schreib einen Absatz mit maximal sechs Sätzen. Verwende wenn möglich plastische Beispiele. Gendere Jobs in der Form „Schülerinnen und Schüler“ oder wähle bevorzugt eine neutrale Form wie „Lehrkräfte“. Wenn mehrere Jobs hintereinanderstehen, nenne abwechselnd die weibliche und die männliche Form. Vermeide die Form „wir“ und „unsere“. Erfinde nichts hinzu und sei sehr genau. Halte Dich genau an die Länge. Ein Absatz, insgesamt sechs Sätze. Hier der Text: [Pressemitteilung hier einfügen]
Der letzte Prompt ist über die Monate gereift und hat beim Erstellen eines Newsletters gute Dienste geleistet. Allerdings hat sich GPT‑4 zwischenzeitlich gewandelt, sodass die Maschine neuerdings Dinge hinzudichtete oder sich nicht an die gewünschte Form des Genderns hielt. Zeitweise bin ich daher zu Chat-GPT 3.5 zurückgekehrt – der ältere Dienst scheint sich enger an die Prompt-Vorgaben zu halten.
Ein weiterer Dienst namens Promptperfect aus Berlin empfahl, den Prompt wie folgt umzuformulieren und weiter zu verklaren. Der Prompt wird deutlich länger. Die Wandlung ins Siezen gehe ich noch mit, bei Punkt 4 habe ich den Prompt aber noch einmal nachgeschärft:
Sie sind als penibler und unparteiischer Journalist dazu aufgefordert, einen gegebenen Text zu interpretieren und in einer klaren Zusammenfassung von sechs Sätzen wiederzugeben. Ihr Ziel ist es, die Kerninformationen des Originaltextes so einfach wie möglich zusammenzufassen, unter Einbeziehung folgender Anforderungen: 1. Verschachtelte Aussagen oder komplexe Informationen sollten durch einfache, leicht verständliche Formulierungen dargestellt werden. 2. Behalten Sie eine neutrale Blickrichtung bei und gewährleisten Sie jedwede Genauigkeit entsprechend der journalistischen Ethik.3. Wird im zugrundeliegenden Text eine Abkürzung verwendet, sollte diese in Ihrer Erklärung ausgeschrieben und erläutert werden um Irrtümer zu meiden. 4. Stellen Sie sicher, dass alle Zitate den Regeln der deutschen Rechtschreibung entsprechen. Verwenden Sie typographisch korrekte Anführungszeichen.5. Um das Verstehen komplexer Sachverhalte zu fördern, sollten passende und nachvollziehbare Beispiele eingeführt werden. 6. Berufsbezeichnungen sollten so formuliert sein, dass sie geschlechtergerecht sind. Nutzen Sie entweder Geschlechtsneutrale Begriffe oder wechseln Sie zwischen männlicher und weiblicher Form, wenn mehrere Positionen aufgelistet werden. 7. Persönliche Pronomen wie 'wir' und possessive Adjektive wie 'unsere' sollten vermieden werden. 8. Fügen Sie keine fiktionalen Informationen hinzu und stellen Sie sicher, dass sämtliche Punkte korrekt und belegbar sind. Nun folgt der zu bearbeitende Text: [Pressemitteilung hier einfügen]
Es empfiehlt sich, seine Prompts als Notizen zu speichern, zum Wiederverwenden.
2. One-Shot-Prompting
Das One-Shot-Prompting erfordert, dass alle notwendigen Informationen in einem einzigen, detaillierten Prompt präsentiert werden, um die gewünschte Antwort zu erhalten.
Beispiele
Du als Informatiker, erkläre mir die Grundlagen von HTML.
Du als Historiker, der auf das Mittelalter spezialisiert ist, schildere mir die gesellschaftlichen Strukturen, die Hauptereignisse und die Bedeutung des Schwarzen Todes in Europa.
Du als Botaniker, der nie einen Baum gesehen hat, beschreibe mir, wie Bäume Fotosynthese betreiben.
Man sollte nicht davor zurückschrecken, der Maschine sehr genau ihre Aufgabe vorzugeben. Eine klare Strukturierung hilft.
Ich arbeite an einem Forschungsprojekt, das sich mit der Analyse von sozioökonomischen Faktoren in verschiedenen Ländern beschäftigt. Insbesondere konzentriere ich mich auf die Auswirkungen von Bildung, Gesundheitsversorgung, Arbeitslosigkeit und politischer Stabilität auf das Wirtschaftswachstum.1. Bildung: Wie beeinflusst das Bildungsniveau die Arbeitsmarktfähigkeiten und die Innovationsfähigkeit eines Landes? Welche Rolle spielen öffentliche und private Investitionen in die Bildung?2. Gesundheitsversorgung: Wie wirkt sich die Qualität der Gesundheitsversorgung auf die Lebenserwartung und die Arbeitsproduktivität aus? Welche Unterschiede gibt es zwischen Ländern mit universeller Gesundheitsversorgung und solchen ohne?3. Arbeitslosigkeit: Welche Faktoren tragen zur Arbeitslosigkeit bei, und wie beeinflusst sie das Wirtschaftswachstum? Wie wirken sich verschiedene Arbeitsmarktpolitiken auf die Arbeitslosenrate aus?4. Politische Stabilität: Wie beeinflusst die politische Stabilität oder Instabilität das Investitionsklima und das Vertrauen der Verbraucher? Welche Rolle spielen Regierungsführung und Korruption?Bitte gib eine detaillierte Analyse dieser Themen, unterstützt durch Beispiele und Statistiken, wenn möglich. Deine Einsichten werden mir helfen, meine Forschung zu bereichern und ein umfassendes Verständnis der Thematik zu entwickeln.
Die Struktur kann man ebenfalls von der Maschine vorschlagen lassen:
Ich will ein Buch über Bezahlschranken für Web-Publikationen im deutschsprachigen Markt veröffentlichen. Erstell mir ein ausführliches Inhaltsverzeichnis. Sieh darin auch Beispiele von „Spiegel“, FAZ, Blendle und der Stiftung Warentest vor. Zielgruppe des Buches sind Geschäftsführer und Chefredakteurinnen von Zeitungsverlagen. Schreib nach dem Inhaltsverzeichnis das erste Kapitel.
Ergebnis des letzten Prompts war ein durchaus brauchbares Inhaltsverzeichnis als Entwurf. Mit einem etwas anders formulierten Prompt ließ ich mir darüber hinaus ein noch ausführliches Inhaltsverzeichnis und die ersten drei Kapitel schreiben.
Chained Prompting verwendet eine Serie von zusammenhängenden Prompts, um ein Thema schrittweise zu erforschen oder komplexe Fragen in überschaubare Teile zu zerlegen.
Beispiel 1
Was ist Photosynthese?
Wo findet sie statt?
Beispiel 2
Was sind die Grundlagen der Quantenphysik?
Wie wird sie in der Technologie angewendet?
Was sind die ethischen Überlegungen dabei?
Beispiel 3
Was trägt ein Pinguin normalerweise?
Wie würde ein Pinguin in einem Anzug aussehen?
Zusammen mit dem Plugin „Photorealistic“ erzeugt GPT‑4 zwei neue Prompts als Beispiel, die in der Bilder-KI Midjourney weiterverarbeitet werden können. Eines der Ergebnisse (bei dem allerdings der Anzug verloren ging):
Beispiel 4
Was sind die Hauptzutaten für einen Schokoladenkuchen?
Welche Mengen von diesen Zutaten werden für einen Schokoladenkuchen benötigt?
Wie bereite ich die trockenen Zutaten für den Schokoladenkuchen vor?
Wie bereite ich die feuchten Zutaten für den Schokoladenkuchen vor?
Wie kombiniere ich die trockenen und feuchten Zutaten und backe den Kuchen?
Beispiel 5
Was ist die Schrödinger-Gleichung?
Erkläre sie mir, als wäre ich ein Zehnjähriger.
Wie würde man die Formeln aussprechen?
Gib mir die beiden Formeln so zum Herauskopieren, damit ich sie in einem Newsletter einfügen kann.
Mein Newsletter kann kein Latex. Was sind die Alternativen?
Gib mir das in HTML.
4. Temperatur- und Top-K-Steuerung
Die Steuerung von Temperatur und Top‑K in einem Modell beeinflusst die Vielfalt der Antworten. Niedrigere Temperaturen resultieren in vorhersehbareren Antworten, höhere Temperaturen fördern Kreativität.
Beispiele
Temperatur 0.2. Wie hoch ist der Eiffelturm?
Antwort: „Mit einer Temperatur von 0,2, die eine konservativere und genauere Antwort fördert, ist die Antwort auf die Frage: Der Eiffelturm ist 324 Meter hoch einschließlich Antennen an der Spitze. Ohne Antennen misst er etwa 300 Meter.“
Temperatur 1.0. Wie hoch ist der Eiffelturm?
Antwort: „Der Eiffelturm, dieses ikonische Meisterwerk der Ingenieurskunst, ragt stolz 324 Meter in den Pariser Himmel, wenn man die Antennen an der Spitze mitzählt. Ohne die Antennen beträgt die Höhe etwa 300 Meter, was ihn zu einem beeindruckenden Wahrzeichen der französischen Hauptstadt macht.“
Temperatur 0.7, Prompt: Entwirf ein futuristisches Verkehrssystem unter Berücksichtigung von Nachhaltigkeit und Technologie.
Temperatur 1.0, Prompt: Wie würde ein Gedicht klingen, das von einem Roboter geschrieben wurde, der nur wissenschaftliche Begriffe verwendet?
Top-K 20. Was macht einen guten Roman aus?
Antwort: „Ein guter Roman hat interessante Charaktere und eine spannende Handlung.“
Top-K 100. Was macht einen guten Roman aus?
Antwort: „Ein guter Roman kombiniert überzeugende Charaktere, einen fesselnden Handlungsverlauf, lebendige Beschreibungen, thematische Tiefe und einen einzigartigen Schreibstil.“
Mit Top‑K 100 wird die Antwort vielfältiger und detaillierter, da eine breitere Palette von Wörtern zur Auswahl steht.
Top-K 500. Entwirf ein Menü für ein futuristisches Restaurant.
Antwort: „In einem futuristischen Restaurant könnten Gerichte wie molekulare Gastronomie-Salate, 3D-gedruckte Hauptgerichte mit kultiviertem Fleisch, Nano-infundierte Desserts und Robotermixer-Cocktails serviert werden.“
Mit einem Top‑K von 500 hätte die Antwort eine große Vielfalt und Kreativität, da viele unkonventionelle und innovative Ideen einfließen könnten.
Top-K 500. Temperatur 0,1. Entwirf ein Menü für ein futuristisches Restaurant.
Mit einem Top‑K von 500 und einer sehr niedrigen Temperatur von 0,1 würde das Modell eher konservative und gebräuchliche Wörter und Phrasen wählen, auch wenn es eine breite Palette von Optionen in Betracht zieht.
„Hier ist ein Beispiel für ein Menü für ein futuristisches Restaurant unter diesen Bedingungen:
Futuristisches Restaurant-Menü 1
Vorspeisen
Kaltgepresster, hydrierter Gemüsesaft
Molekularer Algensalat mit Kaviar aus dem Labor
3D-gedruckte Gemüsesuppe
Hauptgerichte:
Sous-vide-gekochtes, kultiviertes Rindfleisch mit aeroponisch angebautem Gemüse
Vegane „Hühnchen“-Kroketten aus zellbasiertem Protein
Beilagen
Nanotechnologie-geschichteter Reis
Zeropollution luftgezogener Salat
Energetisch optimierte Quinoa
Desserts
Synthetische Schokoladentorte mit essbaren Lasern
Virtuell aromatisiertes Eis
Sonnenbetriebene Fruchtkompotts
Getränke
Selbstreinigende, gefilterte Wasseroptionen
Solarbetriebene Smoothies
Bioreaktor-Erfrischungen mit personalisierten Vitaminen“
Das Menü ist zwar futuristisch, aber die Auswahl eines niedrigen Temperaturwerts von 0,1 würde dazu führen, dass es eher konventionell und realistisch bleibt, auch wenn ein Top‑K von 500 eine breite Palette von Optionen zulässt.
Top-K 500. Temperatur 1,0. Entwirf ein Menü für ein futuristisches Restaurant.
Antwort: „Mit einem Top‑K von 500 und einer Temperatur von 1,0 wird das Modell eine viel kreativere und vielfältigere Antwort generieren, da diese Einstellungen eine breite Auswahl von Wörtern ermöglichen und die Wahrscheinlichkeit erhöhen, ungewöhnliche oder unerwartete Optionen zu wählen. Hier ist ein Beispiel für ein Menü für ein futuristisches Restaurant unter diesen Bedingungen:
Futuristisches Restaurant-Menü 2
Vorspeisen
Schwebender Gemüsesalat in Anti-Gravitations-Dressing
Zeitreise-Tapas: Geschmacksprofile aus verschiedenen Jahrhunderten
Telepathische Suppe: Passt den Geschmack an Ihre Gedanken an
Hauptgerichte
Holographisches Sushi: Fisch, der sich nach Ihren Wünschen formt
Quantum-Burger: Gleichzeitig fleischig und vegan
Interstellares Gourmet-Marsmenü mit Meteoriten-Kräutern
Beilagen
4D-gebackene Brötchen: Verändern die Textur mit jedem Bissen
Virtuelle Gemüsefelder: Ernten Sie Ihr eigenes Gemüse am Tisch
Emotionales Brot: Nimmt die Stimmung Ihres Gesprächs auf
Desserts
Unmögliche Torte: Schmeckt nach allem und nichts zugleich
Dunkle-Materie-Eiscreme: Ein Geschmack, der noch nie erlebt wurde
Gedankenzuckerwatte: Süß, wie Sie es sich vorstellen
Getränke
Stimmungscocktails: Verändert die Farbe und den Geschmack mit Ihrer Stimmung
Galaktische Weinauswahl: Von weit entfernten Sternensystemen geerntet
Hydrationsnebel: Trinken Sie, indem Sie einfach einatmen
Die Temperatur von 1,0 ermutigt das Modell, abstrakte und ungewöhnliche Ideen zu erkunden, und die hohe Top-K-Einstellung ermöglicht eine breite Auswahl an Möglichkeiten, wodurch ein einzigartiges und wirklich futuristisches Menü entsteht.
5. Ankertext verwenden und Stil kopieren
Ein Ankertext wird zu Beginn des Prompts verwendet, um ein Beispiel für die gewünschte Antwort zu geben. Dies hilft, das Modell in die richtige Richtung zu lenken.
Beispiele
Ankertext: „Es war einmal in einem Land weit, weit weg, wo Könige und Königinnen regierten, und das Volk nach Gerechtigkeit dürstete.“ Beschreibe die Französische Revolution im Stil des obigen Ankertextes.
Ankertext: „Post von Wagner. Liebe Bundestrainerin Voss-Tecklenburg, [Beispiel-Text von Bild-Kolumnist Franz Josef Wagner]“ Schreib im Stil von diesem Ankertext eine neue Kolumne, nachdem die Frauen nun nach zumeist schlechter Leistung bei der WM bereits in der Vorrunde ausgeschieden sind.
Das Ergebnis des letzten Prompts lesen Sie hier. Man mag von Wagner halten, was man will – doch wird sein Stil hiermit unsterblich.
Mit der Methode kann man der Maschine seinen persönlichen Schreibstil beibringen. Man kippe nach obigem Muster einen eigenen gelungenen Text in den Prompt – und bitte die Maschine anschließend darum, im Stil dieses Ankertextes einen neuen Beitrag zu einem neuen Thema zu verfassen. Das neue Thema umreißt man dazu mit ein paar Stichwörtern und Fakten.
6. Aufteilung komplexer Fragen
Diese Technik zerlegt komplexe Fragen in kleinere, überschaubare Teile und fragt sie einzeln. Dadurch wird eine klare und detaillierte Antwort ermöglicht.
Beispiel 1
Was ist ein Auto?
Wie funktioniert der Motor?
Beispiel 2
Was ist die Europäische Union?
Wie funktionieren ihre Institutionen?
Was sind die Vor- und Nachteile ihrer Politik?
Beispiel 3
Was ist ein Einhorn?
Wie würden sie sich in der echten Welt ernähren?
7. Rückmeldung und Iteration
Diese Technik ermöglicht eine iterative Interaktion mit dem Modell, indem sie auf vorherige Antworten aufbaut und um Klärung oder Weiterentwicklung bittet.
Beispiel 1
Beim rollenbasierten Prompten unter Kapitel 1 haben wir eine Pressemitteilung zusammenfassen lassen. Macht man das mit drei Pressemitteilungen in derselben Sitzung, kennt die Maschine nun die drei Themen – und verarbeitet folgende Prompts anschließend geschmeidig:
Mache drei Vorschläge für eine Überschrift für jeden Text. Sie soll maximal acht Wörter enthalten. Achte darauf, dass in der Überschrift Verben verwendet werden und keine Ausrufezeichen. Mache außerdem für jeden Text drei Vorschläge für eine Bebilderung zum Thema.
Erstelle eine Tabelle mit den Spalten: Stichwort, Facebook-Beitrag, Tweet, LinkedIn-Beitrag. basierend auf den Texten. Verwende Emojis bei Plattformen, auf denen es passt und üblich ist. Duze die Leser nicht. Sprich die Leser nicht direkt an. Kling seriös und neutral, nicht werbend. Verwende Emojis auf Plattformen, auf denen es passt. Mach am Ende jedes Beitrags in Klammern einen Hinweis auf die beste Sendezeit (Wochentag und Uhrzeit), um möglichst viele Leser auf der Plattform zu erreichen. Zeig mir die Tabelle.
Mein CvD will alle Social-Media-Veröffentlichungen vor Veröffentlichung abnicken. Gib mir die Tabelle als .csv-Datei.
Beispiel 2
Erkläre die Theorie der Relativität.
Wie hat sie die Physik beeinflusst?
Gibt es Kritik oder alternative Theorien?
Beispiel 3
Was ist der Sinn des Lebens?
Wie sind Philosophen zu verschiedenen Antworten auf diese Frage gekommen?
8. Stufenweise Detailanforderung
Beginnt mit einer allgemeinen Frage und fordert schrittweise detailliertere Informationen an, basierend auf den vorherigen Antworten.
Beispiel 1
Was ist ein Planet?
Erzähle mir mehr über die Erde.
Beispiel 2
Was ist Kunst?
Wie hat sich die Malerei entwickelt?
Erkläre die Bedeutung des Impressionismus.
Beispiel 3
Was ist ein Traum?
Können Tiere träumen?
Wie würden Außerirdische träumen?
9. Kontextbezogene Hinweise verwenden
Fügt dem Prompt spezifische Hinweise oder Anweisungen hinzu, um die Antwort zu steuern.
Beispiele
Erkläre mir den Wasserkreislauf, aber in einfachen Worten.
Beschreibe die Entstehung der Demokratie in Athen und vergleiche sie mit der modernen Demokratie, unter Verwendung von Beispielen aus der Politikwissenschaft.
Erkläre die Quantenmechanik in Form eines Märchens.
10. Prompt Engineering mit Multimodalität
Verwendet sowohl Text als auch andere Datentypen wie Bilder oder Töne, um multidimensionale Fragen zu stellen. Hierfür sind bei ChatGPT Plugins nötig. Die kann man sich in einem neuen Chat durch Klick auf GPT‑4 und der Auswahl von „Plugins“ aufrufen. Es können maximal drei Plugins aktiviert werden. Am Ende der Plugin-Liste gelangt man in einen Plugin-Store, wo sich weitere Angebote finden. Wie die Plugins zu bedienen sind, erschließt sich daraus noch nicht – doch unternimmt GPT‑4 aus dem Kontext heraus einen Versuch, sobald die Maschine meint, für eine bestimmte Antwort wäre ein bestimmtes Plugin geeignet.
Beispiele
Prompt gegenüber GPT‑4 mit Plugin Pixellow:
Gib mir eine Bildschreibung für das Bild [Bildadresse im Web].
Antwort der KI: „Das Bild zeigt einen Mann mit Krawatte und einem weißen Hemd.“
Hier ist ein Bild eines Hundes. Welche Rasse könnte es sein?
Hier ist eine Aufnahme einer Symphonie. Analysiere die verwendeten Instrumente und den Musikstil.
Hier ist ein abstraktes Kunstwerk. Erzähle mir eine Geschichte, die dieses Bild repräsentieren könnte.
Die letzten drei Prompts funktionieren nicht ohne Weiteres bei GPT‑4. Nötig sind dafür Plugins – oder andere KIs, die ich bisher nur teilweise untersucht habe. Eine gute Anlaufstelle fürs Auffinden von KIs, die dafür infrage kommen, ist die Website Theres an AI for that.
11. Negative und Positive Constraints
Diese Technik verwendet spezifische Anweisungen, um einzuschränken, was die Antwort einschließen oder ausschließen soll. „Constraints“ sind übersetzt Einschränkungen oder Begrenzungen.
Beispiele
Erkläre mir den Wasserkreislauf, aber ohne den Regen zu erwähnen.
Beschreibe das Gemälde „Mona Lisa“, aber gib keine subjektiven Meinungen oder Interpretationen ab.
Erzähle mir eine Geschichte über einen König, aber ohne eine Burg oder Ritter zu erwähnen.
Beschreibe das Bild „New York City 1“ von Piet Mondrian. Dann hänge es anders herum auf. Beschreibe das Bild erneut.
12. Interaktive Storytelling-Techniken
Diese Technik verwendet narrative Elemente oder Rollenspiel, um die Interaktion ansprechender und kontextualisierter zu gestalten.
Beispiele
Du bist ein Detektiv im viktorianischen London. Wie würdest du einen Juwelendiebstahl untersuchen?
Du bist ein Entdecker auf einem fremden Planeten. Beschreibe deine Entdeckungen, die Flora, Fauna und mögliche Lebensformen.
Du bist eine sprechende Katze in einer magischen Welt. Erkläre mir die Gesetze der Physik.
Das letzte Beispiel beweist: Maschinen entwickeln Humor.
13. Hypothesen testen
Formuliert spezifische Hypothesen und fragt das Modell, diese zu überprüfen oder zu widerlegen.
Beispiele
Die Erde ist flach. Überprüfe diese Aussage.
Hypothese: Schokolade verursacht Akne. Untersuche diese Behauptung anhand von wissenschaftlichen Studien.
Hypothese: Pflanzen können Gefühle empfinden. Was sagt die Wissenschaft dazu?
14. Metakommunikation
Hierbei wird dem Modell direkt erklärt, wie die Antwort präsentiert werden soll.
Beispiele
Erkläre mir den Wasserkreislauf in der Form eines Gedichts.
Fasse den Inhalt von Goethes „Leiden des jungen Werther“ in einer Tabelle zusammen, die Charaktere, Handlung und Themen darstellt.
Interessanterweise gibt hier GPT‑4 hier eine Warnung aus, dass die generierte Antwort gegen Richtlinien verstoßen könnte – offenbar wegen des Themas Suizid.
Beschreibe die Theorie der Evolution als Kochrezept.
15. Personalisierte Prompts
Diese Technik passt den Prompt an den spezifischen Benutzer oder Kontext an.
Beispiele
Du als Biologe, erkläre mir die Photosynthese.
Du als Historiker mit Schwerpunkt auf dem Römischen Reich, analysiere die sozialen Strukturen und ihre Auswirkungen auf die heutige Gesellschaft.
Du als Kind, das in den 1950er Jahren aufgewachsen ist, beschreibe mir ein Smartphone.
16. Simulierte Mehrbenutzer-Interaktion
Simuliert eine Diskussion zwischen verschiedenen Benutzern oder Experten, um eine facettenreiche Antwort zu erhalten.
Beispiele
Ein Mathematiker und ein Physiker diskutieren über die Schwerkraft. Wie sieht das Gespräch aus?
Ein Philosoph, ein Biologe und ein Künstler diskutieren über die Bedeutung des Lebens. Wie gestaltet sich die Debatte?
Ein Koch, ein Astronaut und ein Zeitreisender diskutieren über die beste Methode, Kaffee zuzubereiten. Wie verläuft das Gespräch?
17. Historischen Kontext nutzen
Referenziert spezifische historische oder kulturelle Informationen, um Antworten in einem spezifischen Kontext zu erhalten.
Beispiele
Erkläre mir die Dampfmaschine im Kontext der Industriellen Revolution.
Analysiere die Rolle von Frauen in der amerikanischen Gesellschaft während des 19. Jahrhunderts.
Wie hätte das Internet ausgesehen, wenn es im antiken Rom erfunden worden wäre?
18. Visualisierung fordern
Fordert das Modell auf, eine Antwort in Form einer Visualisierung wie einem Diagramm, einer Tabelle oder einem Flowchart zu liefern. Zum Einsatz kommen die Plugins Diagrams und Draw.
Beispiele
Zeichne ein Diagramm des Wasserkreislaufs.
Erstelle eine Tabelle, die die unterschiedlichen Wirtschaftssysteme vergleicht.
Gestalte einen Flowchart, der zeigt, wie eine Idee zu einem Gesetz wird, aber im Stil eines Brettspiels.
19. Emotionale Nuancen
Fragt das Modell, die Antwort mit einer bestimmten emotionalen Tönung oder Perspektive zu formulieren.
Beispiele
Beschreibe einen Sonnenuntergang aus der Sicht einer verliebten Person.
Erzähle die Geschichte der französischen Revolution, aber mit einem traurigen Unterton.
Erkläre die wissenschaftliche Methode, aber als wäre es ein romantisches Gedicht.
20. Ad-hoc-Kombination von Techniken
Kombiniert mehrere der oben genannten Techniken ad-hoc, um eine multifokale und maßgeschneiderte Antwort zu erhalten.
Beispiele
Als Detektiv (Interaktive Storytelling-Techniken), erkläre mir die DNA (Personalisierte Prompts) in Form eines Gedichts (Metakommunikation).
Beschreibe die wirtschaftlichen Prinzipien des Mittelalters (Historischen Kontext nutzen) aus der Sicht eines Kaufmanns (Personalisierte Prompts), und präsentiere es als Tabelle (Visualisierung fordern).
Ein Mathematiker und ein Dichter (Simulierte Mehrbenutzer-Interaktion) diskutieren über die Liebe (Emotionale Nuancen) in der Renaissance (Historischen Kontext nutzen), und sie tun dies in Form eines Rap-Battles (Metakommunikation).
Und das waren nur die ersten 20 Techniken.
Den „Code Interpreter“ von ChatGPT, eine hinzuschaltbare Komponente der KI, haben wir noch gar nicht genutzt. Dazu gibt’s in einem der nächsten Newsletter mehr.
Unter uns: Die Textanweisungen helfen dabei, meine Arbeitszeit für wiederkehrende Aufgaben zu reduzieren. Es scheint misslich, das öffentlich zu schreiben, wenn der Auftraggeber oder Chef mitliest und Dich nach geleisteter Arbeitszeit bezahlt. Andererseits ist das der Zug der Zeit – über kurz oder lang kommt jemand anders, der Routinejobs mit den Werkzeugen der KI in der Hälfte der bisherigen Zeit macht oder wie aktuell bei mir zu zwei Dritteln der Zeit. Und gegenwärtig verdiene ich ganz gut daran, erworbene Kompetenz zum Thema weiterzugeben.
Mein Lieblingsprompt, über die Wochen gereift, ist dieser:
Du bist Journalist Sam. Fasse mir folgenden Text in den Worten von Marcus Schwarze zusammen. Verwende dabei eine einfache Sprache und einfache Sätze. Schreibe journalistisch und neutral. Erkläre Abkürzungen. Schreib einen Absatz mit maximal sechs bis acht Sätzen. Verwende wenn möglich plastische Beispiele. Zielgruppe sind […]. Gendere Jobs in der Form „Schülerinnen und Schüler“. Wenn mehrere Jobs hintereinander stehen, nenne abwechselnd die weibliche und die männliche Form. Vermeide die Formen „wir“ und „unsere“. Sei nicht werbend. Sprich den Leser nicht direkt an.
Dem folgt stets der eigentliche Text, zum Beispiel eine Pressemitteilung. Gerne lasse ich das über einen oder zwei weitere Text erledigen, je nachdem, wie viele Quellen ich verwende. Die folgende Anweisung an die KI lautet dann:
Mach's noch mal, Sam. Fasse mir alle x erstellten Texte in einem neuen Text zusammen. Nach den Regeln, die ich genannt habe. Leg den Schwerpunkt auf [dies] und [das]. Überprüfe anschließend die Plausibilität der Texte.
Spart man so bereits ein Drittel der Zeit? Nein. Und die Anweisung, etwas in meinen Worten zu machen, ist eigentlich überflüssig, denn zu diesem Zeitpunkt kennt die KI meine Sprache noch nicht. Sie vergisst es auch nach jeder Sitzung.
Die erste Magie entfaltet folgender Prompt:
Hier folgen drei Texte. Mache für jeden drei Vorschläge für eine Überschrift. Sie soll maximal acht Wörter enthalten. Achte darauf, dass in der Überschrift Verben und ein Doppelpunkt verwendet werden und keine Ausrufezeichen. Mache außerdem für jeden Text drei Vorschläge für eine Bebilderung zum Thema.
In 95 Prozent der Fälle kommen dabei gute Ratschläge heraus. Weiter geht’s damit, was tatsächlich Arbeitszeit reduziert:
Erstelle eine Tabelle mit den Spalten: Stichwort, Überschrift, Facebook-Beitrag, Tweet, LinkedIn-Beitrag, basierend auf den überprüften Texten. Verwende Emojis bei Plattformen, auf denen es passt und üblich ist. Duze die Leser nicht. Sprich die Leser nicht direkt an. Kling seriös und neutral, nicht werbend. Mach am Ende jedes Beitrags in Klammern einen Hinweis auf die beste Sendezeit (Wochentag und Uhrzeit), um möglichst viele Leser auf der Plattform zu erreichen.
Fertig? Fast.
Gib mir die Tabelle als .csv-Datei, die ich herauskopieren kann. Benutze Semikolons statt Kommata zum Trennen der Zellen.
Fertig ist der Social-Media-Plan, mundgerecht einkopierbar in ein Tabellenblatt. Die enthaltenen angeblich besten Sendezeiten für die jeweilige Plattform bezweifle ich zwar, Facebook selbst nennt beim Einstellen stets andere Zeiten. Aber der Grundstock ist gelegt.
Das sind Prompts für den Hausgebrauch, manchmal beachtet die KI Einzelwünsche nicht und setzt sich schon mal über die Genderregeln hinweg. Je länger die Anweisungen sind, desto eher werden die Dinge am Schluss missachtet.
P. S.: In den vergangenen Wochen habe ich durch richtiges Befragen der KI meine erste funktionstüchtige „eigene“ KI programmiert. Ich kann kein Python, und meine HTML-Kenntnisse sind eingerostet. Wie man eine API sinnstiftend befragt, habe ich das letzte Mal vor zehn Jahren ausprobiert. Mehr zur „eigenen KI“ demnächst. Denn die sollte bestenfalls in der Lage sein, auch gleich die Posts für Social Media zu planen und herauszuhauen, nach Freigabe.