Der Todesstern repräsentiert in Filmen der Star-Wars-Reihe autoritäre Kontrolle und totalitäre Macht. Er verkörpert eine dunkle Kraft, die vernichtet, aber letztlich durch die „gute“ Seite besiegt wird. So geschieht es zwei Mal in den Science-Fiction-Filmen. „Beim Testen von GPT‑5 hatte ich Angst. Ich schaute es mir an und dachte: Was haben wir da getan? Es ist wie das Manhattan-Projekt“, sagte Altman in einem Podcast. Er spielte damit auf das streng geheime US-Forschungsprogramm während des Zweiten Weltkriegs zur Entwicklung der ersten Atombombe an. Die Entwickler des Manhattan-Projekts waren später erschüttert von dem, was ihre Technologie angerichtet hatte. Altman signalisiert damit, ungewöhnlich für einen Unternehmer einer neuen KI, ein ähnliches Unbehagen: eine Technologie, die womöglich über das hinausgeht, was kontrollierbar ist. Es gebe niemanden, der hier wirklich die Verantwortung übernimmt: „There are no adults in the room.“
Unabhängig von solch einem gewiss auch dramatisierenden Werbe-Stunt: GPT‑5 ist das fortschrittlichste Modell von OpenAI und bietet laut Ankündigung erhebliche Verbesserungen in Bezug auf Argumentation, Codequalität und Benutzererfahrung. Es bewältigt komplexe Programmieraufgaben mit minimalen Aufforderungen, liefert klare Erklärungen und führt verbesserte Agentenfunktionen ein, was es zu einem leistungsstarken Programmierpartner und intelligenten Assistenten für alle Benutzer macht. Die KI steht dabei als einheitliches integriertes Modell bereit, ohne dass man eine der Modellvarianten auswählen muss.
Wie ein erster Tester schrieb (ich habe es selbst zurzeit noch nicht getestet, das folgt ausgeruht für die nächste F.A.Z.-PRO-Digitalwirtschaft), sollen besonders die Programmierfähigkeiten herausragen: Die KI befolgt „autistisch“ die Anweisungen und ruft interne Werkzeuge ab. Ein einziger Aufruf hat bei diesem Test bis zu elf Dateibearbeitungen bewirkt. Für Aufgaben mit vielen Schritten bleibt die KI „auf Kurs“ und erledigt alles selbstständig. Die KI habe Code geschrieben, „der einfach funktioniert“. Wenn sich das bewahrheitet, konkurriert GPT‑5 direkt mit Startups wie Lovable, die KI-basierte Programmierung zu neuen Fertigkeiten entwickelt haben.
(Screenshot: OpenAI)
Dazu kommen Fähigkeiten für gesundheitsbezogene Fragen. „Es erkennt proaktiv potenzielle Probleme, stellt Rückfragen und hilft dabei, Ergebnisse zu verstehen“, kündigte das Unternehmen an. Wichtig sei aber, dass ChatGPT keine medizinische Fachkraft ersetzt.
GPT‑5 steht der Mitteilung zufolge in einer eingeschränkten Fassung bereits kostenlos bei ChatGPT zur Verfügung. Nutzer des Tarifs Plus für 20 Dollar im Monat erhalten erweitertes Reasoning („Nachdenken“). „Plus“-Nutzer bekommen für 200 Dollar im Monat Zugang zum vollen Modell mit maximalem KI-Gehirnschmalz und ohne Begrenzungen.
Voreingestellte Persönlichkeiten
In den nächsten Tagen will Open AI zudem neue Funktionen freischalten, etwa zur Markierung von Chats in verschiedenen Farben. Außerdem führt das Unternehmen voreingestellte Persönlichkeiten ein, die unterschiedliche Kommunikationsstile festlegen. Prägnant und professionell, nachdenklich und unterstützend oder sarkastisch sollen dann auswählbar werden. So holt man sich wahlweise einen Zyniker, Roboter, Zuhörer oder Nerd auf den Bildschirm.
Wahlweise lassen sich demnächst von der zahlenden Kundschaft das Gmail-Postfach, der Google-Kalender und Google-Kontakte verbinden. ChatGPT erkennt der Mitteilung zufolge, wann Mails und Kalenderdaten relevant sein könnten und ruft entsprechende Informationen ab.
Manches bei der digitalen Arbeit ist so kleinteilig, da will man sich nicht lange mit Details beschäftigen. Man klickt sich so durch, über die immer gleichen Wege, und fragt sich am Ende: Kann ich das nicht auf eine der Funktionstasten legen, die auf der Mac-Tastatur 19-fach vorhanden sind?
Wöchentlich benötige ich dreimal eine Bilddatei in ein 1100 Pixel breites Format mit 152 dpi umgewandelt. Also öffne ich das Bild in Pixelmator (früher war es Photoshop), wandle das Bild in 152 dpi und lasse es neu berechnen für die gewünschte Breite. Diverse Mausklicks sind dafür nötig. Das geht doch schneller?
Für Screenshots benötige ich gelegentlich den Hell-Modus statt dem von mir bevorzugten Darkmodus. Irgendwo in den Systemeinstellungen muss man da einen Haken setzen. Nur wo? Lässt sich die Umschaltung auf die Taste F16 legen?
Noch simpler: Auf dem Mac hätte ich gerne über die Taste F19 den Taschenrechner aufgerufen. In den Untiefen der Systemeinstellungen auf dem Mac ist dies hinterlegbar – nur wie?
Die Anleitungen für diese drei Aufgaben finden sich in den Untiefen des Webs. Man muss dafür googeln, das Problem mit den Fundstellen abgleichen, ausprobieren und weiterforschen. Oder man hangelt sich durch die Systemeinstellungen des Macs, die inzwischen so unübersichtlich wie die Menüführung in Microsoft Word ist.
Dank Künstlicher Intelligenz geht das jetzt schneller.
Die Aufgabe für die Umwandlung der Bilddatei samt angehängtem „-1100px“ im Dateinamen beschrieb mir ChatGPT o3 Schritt für Schritt. Meine Frage lautete: „Wie kann ich eine Automatisierung erzeugen, um aus Bilddateien eine neue Version mit dem Zusatz ‑1100px im Dateinamen zu erzeugen? Das Bild soll 152 dpi haben und 1100 Pixel breit sein. Es soll auf die Taste F17 reagieren.“ Punkt für Punkt ging die KI mit mir das Nötige durch, führte knapp in die Geheimnisse von Shell-Skripten ein und gab mir den nötigen Code. Es folgte eine Anleitung, wie man das in ein Programm Automator auf dem Mac einfügt. Und es gab eine Anleitung, die gewünschte Funktionstaste der Aufgabe zuzuweisen.
Wieder sind so ein paar Minuten am Tag gewonnen. Und das gelingt auch mit den anderen zwei Aufgaben minutenschnell.
ChatGPT o3 gibt’s nur kostenpflichtig bei OpenAI. Das ist inzwischen eine bessere Suchmaschine als Google: Sie berücksichtigt den Kontext der Frage, durchsucht Dutzende und manchmal Hunderte von Webseiten und macht sich einen Reim darauf.
Die dabei generierten Anleitungen sind nicht immer hundertprozentig korrekt. Mal heißen Menüpunkte anders. Oder sie sind nicht auffindbar. Dann hilft ein schneller Screenshot – und, ihn bei o3 hochzuladen. Messerscharf schließt die KI daraus, dass offenbar etwas nicht stimmt und der Screenshot mit der Anleitung abzugleichen ist. Wieder googelt o3 los, durchsucht das Web nach passenden Infos und bereitet eine neue Anleitung auf.
Wo das noch hinführen könnte, zeigt eine neue Anwendung von Google. Opal erstellt Prozesspläne für Aufgaben. In natürlichen menschlichen Worten beschreibt man die Aufgabe. Die Anwendung zerlegt das in ein Diagramm für erwartete Eingaben und Uploads, eine Google-Suche nach weiteren Informationen und eine anschließende Verarbeitung aller Erkenntnisse für Blogposts und ein Video. Die Machart erinnert an den deutschen Dienst n8n, bei dem man sich ähnliche Workflows zusammenklicken kann. Bei Googles Opal nur eben ohne Expertentum.
Google bezeichnet die KI-gestützte Technik ausdrücklich als Experiment. Wer weiß, ob daraus ein marktfähiges Produkt in Konkurrenz zu n8n und dem schwedischen Startup Lovable wird, das ebenfalls eine starke App zur Programmierung bereitstellt. Gegenwärtig ist Opal nur per VPN-Einwahl in die USA zugänglich und dort kostenlos. „Füge eine Funktion hinzu, das Video automatisch auf Social-Media-Kanälen des Nutzers zu veröffentlichen. Hole Dir für jeden Post seine Freigabe.“
„Unsere Grafikprozessoren schmilzen“, schrieb OpenAI-Chef Sam Altman. (Bild KI-generiert)
Wer in diesen Tagen Künstliche Intelligenz benutzt, erhält das Bild einer Technik am Limit. OpenAI schickt im Minutenabstand Mails über Ausfälle, Grok verweigert schon mal eine Viertelstunde lang den Dienst.
Die Betreiber haben zuletzt immer wieder mächtige neue Funktionen installiert. Sie bringen die Systeme an die Grenzen. OpenAI hat in der vergangenen Woche die Bildgenerierung auf einen neuen Level gehoben. Und den probieren offenbar nicht mehr nur Enthusiasten massiv aus.
Wer etwa den Statusdienst von OpenI abonniert hat, der Auskunft über die Systemstabilität der KI-Werkzeuge gibt, erhielt am Wochenende im Minutentakt Fehlermeldungen per Mail. ChatGPT, die Videoplattform Sora, ein „Playground“ auf der Webseite und eine Laborplattform waren teils massiv gestört. Mal scheiterten die Neuanmeldungen, mal ließen sich keine Dateien hochladen. Chats wurden nicht bedient, und die Techniker beschränkten die offensichtliche Ursache für die Fehler: die neue rechenaufwändige Erstellung von Bildern.
Da hat etwa die Nasa einen Wettbewerb für ein neues Maskottchen ausgeschrieben. Bei einem der nächsten Weltraumflüge soll eine kleine Puppe die Astronauten begleiten. Sie zeigt ihnen dann den Zustand der Schwerelosigkeit, sobald sie nicht mehr an einem Seil baumelt, sondern in der Luft schwebt. Die einfache Technik ist seit Jahr und Tag ein übliches Mittel für Astronauten. Dutzende solcher Puppen waren an Bord von Raumschiffen. Zuletzt beispielsweise die Comicfigur Snoopy als Plüschpuppe. Für den nächsten Flug sucht die Nasa nach einer neuen Puppe.
Lucy aus dem „Peanuts“-Comic als Puppe im Astronauten-Anzug. (Bild KI-generiert)
Ich habe das mal mit einer weiblichen Figur durchgespielt, mithilfe von ChatGPT-4o. Die KI machte mir die nötigen Darstellungen von Lucy, der meinungsstarken, rechthaberischen und spöttischen Figur aus dem Comic „Peanuts“. Auf der Webseite der Nasa zum Wettbewerb sind sehr genaue Vorgaben für die Größe, das Gewicht und die zu verwendenden Materialien nachzulesen. Die KI kann das berücksichtigen. Und die gewünschten Darstellungen der Puppe von vorne, der Rückseite und der Seite erstellen.
Lucy im Astronauten-Anzug, von hinten betrachtet. (Bild KI-generiert)Auch eine schematische Zeichnung kann die KI. (Bild KI-generiert)
Das alles ist mit KI-Hilfe in einer halben Stunde erledigt (auch wenn im Detail manche Darstellungen inkonsistent sind). Doch merkt man, welche Rechenkraft dafür nötig ist. Ein einzelnes Bild braucht schon mal zwei oder drei Minuten. Und immer wieder kommt eine neue Warnung: Sinngemäß ist das System ausgelastet, man solle es bitte in fünf, sechs oder 18 Minuten wieder probieren. „Könnt ihr bitte mal aufhören, Bilder, zu generieren, das ist unglaublich, unser Team braucht Schlaf“, schrieb OpenAI-Chef Sam Altman. Er habe noch nie eine vergleichbare Entwicklung gesehen.
Das Distracted-Boyfriend-Meme im Stil des Zeichentrickstudios Ghibli. (Bild KI-generiert)
Angefeuert wurde die massive KI-Nutzung tagelang durch Ghibli, eine Darstellungsform von Bildern im Stil eines japanischen Zeichentrickfilmstudios. Dabei werden Personen mit simpel erscheinenden Pinselstrichen in niedliche Figuren verwandelt. So gut wie jedes Meme (Internet-Phänomem) wurde von Fans mittlerweile ghiblisiert und auf Social Media veröffentlicht. Das Besondere daran ist, dass die Bilder-KI auch den Kontext zu einem Bild als Vorlage besser versteht. So kann die KI das berühmte „Distracted Boyfriend“-Meme im Ghibli-Stil darstellen. Auf dem Bild schaut ein untreuer Mann beim Bummeln mit seiner Freundin entzückt einer anderen Frau nach. Selbst wenn man das Originalbild der gestellten Aufnahme nicht hochlädt, kennt ChatGPT-4o die Darstellung – und generiert ein ähnliches Bild im Zeichentrickmodus.
ChatGPT-4o hat eine Vorlage für eine Webseite erfunden. (Bild KI-generiert)
Die Funktion zur Bildgenerierung geht über Spielereien hinaus. Mit den richtigen Prompts generiert die KI Benutzeroberflächen für Webseiten, etwa für eine Musikabspielseite, eine persönliche Finanzverwaltung oder eine Kleider-Verkaufsplattform. Freilich sind das zunächst nur Bilder ohne Funktion. Doch kann KI im nächsten Schritt, so die Verheißung, daraus echte Webseiten mit Funktionen programmieren. Versuche zur Programmierung per KI laufen, einzelne Anwendungen dafür erscheinen vielversprechend. Ob sie nötige Sicherheitsaspekte berücksichtigen, steht auf einem anderen Blatt. Programmierlaien können den entstehenden Code kaum einschätzen. Auch Infografiken sind auf diese Weise möglich – wenngleich sie im Detail immer mal wieder Fehler produzieren. Was es damit auf sich hat, beschreibe ich in einem weiteren Beitrag, der in Kürze im F.A.Z.-PRO-Digitalwirtschaft-Briefing erscheint.
Schmelzender Server. (Bild KI-generiert)
Voraussetzung ist allerdings, die Rechenkraft reicht dafür aus. OpenAI hat zuletzt die Generierung von Videos auf der Plattform Sora eingeschränkt. „Wir erleben schweren Traffic und haben daher die Videofunktion für neue Konten eingeschränkt“, teilte OpenAI mit. Es sei für Neulinge nur möglich, Bilder zu generieren. „Unsere Grafikkarten schmilzen“, schrieb Altman. Die Bildergenerierung für Kostenlos-Nutzer wurde daraufhin verschoben. „Mangel an Grafikprozessoren, Kumpel“, begründete er gegenüber einem X‑Nutzer, warum zudem die KI 4o und nicht die aufwendigere Version 4.5 ein Update bekommen habe.
Fehlermeldung bei der Video-KI Sora.
Einen ähnlichen Ansturm erlebt offenbar auch Grok, die KI von Milliardär Elon Musk auf der Plattform X, vormals Twitter. Es gab auch hier in den letzten Tagen zunehmend Aussetzer, mal antwortete der Dienst nicht oder bat darum, es später erneut zu versuchen. Mehr und mehr Menschen nutzen diese KI offenbar, um sich bestimmte Sachverhalte oder Tweets erklären zu lassen. Oder ebenfalls, um Bilder zu generieren.
Erst kam die Menschheit mit den Möglichkeiten der Technik nicht mehr mit, nun scheint es umgekehrt. Das Tempo der KI-Entwicklung ist immens. Viele Kritiker haben die KI vor Wochen und Monaten ausprobiert und wegen mangelhafter Ergebnisse ihr Urteil gebildet. Doch sind die Iterationen Woche um Woche massiv. Wer auf der Höhe bleiben will, kommt um immer wieder neues Ausprobieren nicht herum.
Grafiker müssen umdenken. Wer eine Bebilderung für ein schwieriges Thema braucht, füttert seit ein paar Monaten eine Bilder-KI mit Anweisungen. Wenn man es richtig macht, kommt dabei eine vorzeigbare Illustration heraus. Diese kann fotorealistisch oder wie eine Zeichnung aussehen, vektorisiert (wie oben) oder wie ein Ölgemälde – es kommt eben auf den Prompt an, die Regieanweisung also an die KI.
Midjourney galt bisher als der Porsche unter den generativen Bilder-KIs, obwohl die Bedienung in Verknüpfung mit der Chat-Software Discord nicht eben leicht zu erlernen war. Die Resultate aber waren und sind oft überzeugend.
Seit wenigen Tagen hat auch ChatGPT eine Bilderfunktion eingebaut. Sie heißt Dall‑E 3 und lässt sich bei der kostenpflichtigen Version GPT‑4 über den gleichlautenden Menüpunkt aktiveren. Eine Anleitung zu Dall‑E 3 kennt GPT‑4 nicht. Aber dafür gibt’s ja mich.
Der Prompt für die vier Bilder oben in GPT‑4 lautete (deutsche Übersetzung folgt):
Create an illustration depicting the role of a meticulous journalist summarizing a specific text according to strict guidelines. The scene should encompass the following elements: The Journalist at the Desk: Showcase a person seated at a desk equipped with a computer, notes, and books. The individual should appear focused, possibly holding a magnifying glass to symbolize attention to detail. A Marked and Annotated Text: Place a document on the desk with highlights, underlines, and annotations, emphasizing the requirements of the journalistic process, such as gendering job titles and avoiding certain words. Vivid Examples: Include small illustrations or symbols representing the themes or concepts described in the text, fulfilling the demand for vivid examples. Neutral Style and Color Scheme: Employ subdued, neutral colors to reflect the journalist's objectivity and neutrality. The goal is to craft a scene that illustrates both the complexity of the journalistic task and the simplicity and clarity of the requirements. The illustration should strike a balance between richness in detail and simplicity, highlighting the care and accuracy of the journalist.
Erstelle eine Illustration, die die Rolle eines sorgfältigen Journalisten beim Zusammenfassen eines spezifischen Textes nach strengen Richtlinien darstellt. Die Szene sollte folgende Elemente umfassen:Der Journalist am Schreibtisch: Zeige eine Person, die an einem mit Computer, Notizen und Büchern ausgestatteten Schreibtisch sitzt. Die Person sollte konzentriert wirken, möglicherweise mit einer Lupe in der Hand, um die Liebe zum Detail zu symbolisieren.Ein markierter und annotierter Text: Platziere ein Dokument auf dem Schreibtisch, das Hervorhebungen, Unterstreichungen und Anmerkungen aufweist. Diese sollen die Anforderungen des journalistischen Prozesses hervorheben, wie zum Beispiel das Gendern von Berufsbezeichnungen und das Vermeiden bestimmter Worte.Lebendige Beispiele: Füge kleine Illustrationen oder Symbole hinzu, die die Themen oder Konzepte im Text repräsentieren und damit den Anspruch an lebendige Beispiele erfüllen.Neutraler Stil und Farbschema: Verwende zurückhaltende, neutrale Farben, um die Objektivität und Neutralität des Journalisten widerzuspiegeln.Das Ziel ist es, eine Szene zu schaffen, die sowohl die Komplexität der journalistischen Aufgabe als auch die Einfachheit und Klarheit der Anforderungen illustriert. Die Illustration sollte ein Gleichgewicht zwischen Detailreichtum und Einfachheit finden und die Sorgfalt und Genauigkeit des Journalisten hervorheben.
Nicht ich habe diesen Prompt so ausgefeilt formuliert, sondern die KI Chat-GPT bereits vor ein paar Monaten. Damals für Midjourney. Heraus kam bei Midjourney diese Illustration:
Einen Schritt weiter geht die Anwendung Firefly 2 von Adobe. Der oben genannte Prompt ist dafür zu lang und produziert deshalb einen Fehler. Verkürze ich den Prompt, kommen diese Ergebnisse heraus – nach zusätzlichem Einstellen eines Inhaltstyps Foto (statt Kunst) und Hinzufügen der Effekte Hyperrealistisch und Goldene Stunde.
Finger und Haut wirken etwas unnatürlich. Beim Herunterladen merkt die Software an, dass in der Datei Informationen hinterlegt werden, wonach es sich um ein KI-generiertes Bild handelt.
Firefly erschließt erstmals besser die berüchtigte „Blackbox“ der künstlichen Intelligenz: Bei Midjourney und Co stocherte man bisher im Nebel, warum die Maschine gewisse Bilderelemente generierte und welche Stile sie beherrscht und warum die KI sie anwendet. Bei Firefly ist alles fein ziseliert einstellbar – fast wird man erschlagen von den Möglichkeiten. Neben der grundlegenden Festlegung auf Foto oder Kunst lassen sich zum Beispiel folgende Effekte anwenden:
Bei vielen weiteren Versuchen stellte sich heraus, dass mit Adobe Firefly am besten zu steuern ist, wie die Maschine agieren soll. Allerdings sind die Einstellungen so vielfältig, dass sie sich kaum auf Anhieb erschließen. Versuch und Irrtum sind die neuen Zeiträuber – wieder ist eine Stunde weg, ohne dass ein „perfektes“ Ergebnis vorliegt.
Andererseits kann mit den Werkzeugen nun jeder Anfänger eine schnelle Illustration für eine Präsentation zaubern. Der Aufwand beträgt etwas Gehirnschmalz für den geeigneten Prompt – und gegebenenfalls etwas Überarbeitung.
Für den Lokaljournalismus ergeben sich so neue Möglichkeiten. Wenn dann tatsächlich nach Jahrzehnten der Diskussion über eine neue Brücke am Mittelrhein eine wichtige grundlegende Entscheidung gefällt wurde – warum sollte man sie nicht mit einer Illustration dokumentieren, die die Leserinnen und Leser träumen lässt? Andererseits wird der Journalist mit einer solchen Darstellung zum Akteur: Kein Planungsbüro, kein Bauamt hat diese Entwürfe gemacht, die Kosten unabsehbar, die Realisierung in jedem Fall fraglich. Entsprechend als „KI-generiert“ zu kennzeichnen sind diese Bilder daher allemal.
Eines meiner Lieblingsbilder der KI, das einer Frau in Gucci-Klamotten (oben), lässt sich bei Firefly auch als „Referenzbild“ für neue Kreationen festlegen. Die Maschine analysiert dann das Bild und nimmt grundlegende Erkenntnisse für eine neue Darstellung zum gleichen Prompt auf. Das Ergebnis:
Die grundlegenden Elemente, Farben, Stimmungen und Details neu aufzunehmen, wird so zur neuen Möglichkeit, ohne Model, Studio, Schweiß und Tränen. Andererseits birgt die KI-Technik die Gefahr, sich in den Tiefen des Promptens zu verzetteln. Und 100-prozentig authentisch wirken die Ergebnisse weiterhin nur per Zufall.
Jemand aus Italien lädt ein Foto eines Wohnzimmers hoch und bittet um Vorschläge fürs Verschönern. Die Maschine schlägt unter anderem Akzentfarben vor, inspiriert von italienischem Dekor:
GPT‑4 vision for interior design. 🏠
I love how it’s incorporating what it knows about me in the suggestion because of custom instructions.
Eine verwirrende Ansammlung von Straßenschildern interpretiert ChatGPT: Ja, Du kannst hier ab 16 Uhr an einem Dienstag für eine Stunde parken:
Prüfungsaufgaben der Mathematik und Physik, hochgeladen als Foto, beantwortete die Maschine mit entsprechenden Formeln (allerdings sind die Antworten wohl nicht in Gänze korrekt, wie die Diskussion unter dem Tweet zeigt):
Für eine bestimmte Innenarchitektur und das dargestellte Design findet die Maschine offensichtlich richtigerweise den Begriff des „Athenischen Modernismus“ (einfach mal googeln):
Using GPT‑4 Vision to name never-before-seen architectural styles created with Midjourney.
OpenAI selbst zeigt, wie ChatGPT durch Bilder, Anleitung und Ein Foto vom Werkzeugkoffer bei einer Handwerkeraufgabe helfen kann:
Die Ikea-Anleitung wird nie wieder sein, was sie war. Die künstliche Intelligenz ChatGPT kann Bilder lesen und interpretieren. pic.twitter.com/3Swbgm0pVy
Und dann war da noch dieses Video einer ganz anderen Baustelle, von Lex Fridman mit Mark Zuckerberg, das erstmals anschaulich das viel besprochene und von vielen schon wieder totgesagte Metaverse zeigt – einen virtuellen Raum, an dem die Facebook-Schmiede Meta feilt. Die Herren tragen eigentlich schwere Brillen und Kopfhörer, doch die Technik lässt die Geräte verschwinden. Mimik und Sprache werden künstlich generiert, man wähnt sich in einem gemeinsamen verdunkelten Raum:
Alle sprechen über KI und ChatGPT. Aber Mark Zuckerberg gab gerade dieses Interview – mithilfe einer Brille, die ihn mit dem Gesprächspartner in einen gemeinsamen Raum beamt. Und die Technik verschwinden lässt. pic.twitter.com/F1QnbxCABf
… konnte ich noch nicht testen, die Funktion wird erst nach und nach ausgerollt. Viele weitere Beispiele zeigen die Leistungsfähigkeit, aber auch die Fehler. OpenAI selbst hat in einem Papier bereits untersucht, welche Gefahren von der neuen Sehfähigkeit der Maschinen ausgehen können. Sie reichen von falsch erkannten giftigen Pilzen bis zur Befeuerung von Klischees und Vorurteilen.
Und noch eine Funktion wird bei ChatGPT gerade populär: die Fähigkeit, gesprochene Prompts zu erkennen und gesprochen zu beantworten. Das ist zwar mit Blick auf die alten Damen Alexa und Siri keine Meisterleistung mehr, in Verknüpfung mit KI-Leistungen im Hintergrund aber für viele ebenso krasses Neuland.
Vielen Dank fürs Lesen von Marcus Schwarzes Newsletter! Dieser Post ist öffentlich, also zögern Sie nicht, ihn zu teilen.
Mehr zur rasanten Entwicklung der künstlichen Intelligenz bietet das Briefing Frankfurter Allgemeine Pro D:ECONOMY. Darin auch der „Prompt der Woche“ mit bisher zwei Beiträgen von mir:
Zum Beispiel Dante AI: Neben GPT‑4 von OpenAI und dem Vorgängermodell GPT‑3.5‑Turbo können neuerdings auch das Open-Source-Modell Falcon LLM und das Modell LlaMA 2 von Facebook-Anbieter Meta hinterlegt werden.
Zum Beispiel Perplexity AI: Hier kann statt GPT‑4 von OpenAI wahlweise auch das Modell Claude 2 oder ein eigenes Modell von Perplexity eingerichtet werden.
Mal eben die Maschine wechseln: Bei Dante AI stehen mittlerweile mehrere Sprachmodelle zur Auswahl. (Screenshot: Schwarze)
Hinzu kommt, dass GPT‑4 nach Beobachtung von Fachleuten zuletzt an Qualität eingebüßt hat. So konnten Anwaltskanzleien vor vier, fünf Monaten der Maschine durchaus brauchbare Vorlagen fürs rechtskonforme Internet-Impressum oder eine Datenschutzerklärung entlocken. Mittlerweile produziert GPT‑4 häufiger Müll.
Auch mir erging es zuletzt häufiger so: Einst gut funktionierende Prompts fürs Zusammenfassen von Sachverhalten in meinem, der Maschine antrainierten Duktus lassen nun häufiger Anforderungen offen. Es half, auf GPT‑3.5 statt 4 zu wechseln.
GPT‑4 mit nachlassender Qualität
Die nachlassende Qualität von GPT‑4 bestätigt in Teilen eine Studie der Universitäten Stanford und Berkeley: In drei von vier getesteten Feldern nahm die Leistung zwischen März und Juni ab. Konnte die Maschine im März noch 97,6 Prozent an Primzahlen erkennen, waren es im Juni nur noch 2,4 Prozent.
Nun könnte man schlussfolgern, dass die Vielzahl aus Gagafragen aus aller Welt bei GPT‑4 in den vergangenen Monaten für Verwirrung und Durcheinander sorgt. Doch hat Open AI stets betont, dass die Chatverläufe aus Datenschutzgründen nicht in das Modell einfließen. Wahrscheinlicher ist, dass die Macher ihr Modell weiterentwickeln und vor allem Rechenzeit pro Anfrage einsparen – nicht immer zum Besten.
Wie einst in der Schrauberszene für Autos tunen heute Enthusiasten ihre zusammengeklickten KI-Maschinen, bauen etwa ein anderes Sprachmodell als GPT‑4 als neuen Motor ein. Wie sich die Motoren unterscheiden, erschließt sich bei den merkwürdigen Namen wie LlaMA und Falcon allerdings nur Spezialisten. Schrauben dann zusätzlich die Macher von GPT‑4 im Hintergrund an den Parametern, ist guter Rat teuer: Warum schwankt die Qualität der Antworten?
Die Ingenieure bei OpenAI halten sich mit Antworten dazu eher zurück. Doch scheint der Markt sich neu zu orientieren: Der Traffic auf der Webseite openai.com ging laut Similarweb von Mai (1,9 Milliarden Visits) bis Juli (1,5 Milliarden) deutlich zurück.
Wer will, baut sich vielleicht lieber auf dem eigenen Rechner eine eigene KI nach, dafür gibt es die Anwendung GPT4All. Auch hier können GPT‑4 und 3.5, aber auch LlaMA 2 und andere Modelle hinterlegt werden.
Wer sind Sie und was wollen Sie?
Hinzu kommen bei den kommerziellen Diensten Perplexity und Dante AI vorzugebende Randumstände, an denen sich die jeweiligen KIs orientieren sollen. Beim herkömmlichen GPT‑4 füllt man dafür zwei Felder aus, in denen man zunächst die eigene Rolle („Ich bin CEO und brauche klare, pointierte Antworten, auch Hinweise auf mögliche fehlerhafte Entscheidungen“) und dann die Wünsche an die Antworten formuliert („Genaue Antworten, erfinde nichts“).
Bei Perplexity soll man einmalig einstellen, wer man ist, wo man hinwill, was man sonst so macht. (Screenshot: Schwarze)
Bei Perplexity AI wird das ausführlicher. Die Maschine möchte Infos über den eigenen Standort, in welcher Sprache zu antworten ist, eigene Hobbys und Interessen, den Beruf und künftige Ziele.
Perplexity gibt dadurch genauere Antworten, die auf den Fragenden besser abgestimmt sind. Hinzuschaltbar ist außerdem ein „Copilot“: Dann antwortet Perplexity nicht einfach drauflos, sondern stellt durchaus intelligente Verständnisfragen. Oder schaut im Internet nach.
Das Nutzerinterface ist dabei gewöhnungsbedürftig. So wird fürs Zusammenfassen eines längeren Textes zurückgefragt, welchen thematischen Schwerpunkt die Zusammenfassung haben soll – und macht auch gleich kommaseparierte Vorschläge. Will man dann zwei, drei Schwerpunkte auswählen, verschwinden sie beim Anklicken und müssen manuell eingetippt werden – lästig.
Die Maschine schaut selbst im Internet nach
Interessant ist Perplexity aber auch deshalb, weil es von Haus aus Internetrecherchen zum Beantworten anstellen kann. Die Quellen werden angegeben. Auch ist es möglich, eine Datei hochzuladen und gezielt Fragen dazu zu beantworten. „Worum geht es in dem Video?“ – die Frage samt benannter YouTube-Adresse bringt die Maschine zu einer ordentlichen Zusammenfassung; wenngleich sie auch Dinge aus anderen Quellen hineinmengt, dies aber meist transparent macht.
Perplexity kostet wie GPT‑4 20 Dollar im Monat. Voreingestellt ist die Nutzung der eigenen Chatverläufe durch das Unternehmen dahinter, um das Perplexity-Sprachmodell zu verbessern. Das kann man abschalten.
Insgesamt bietet Perplexity über GPT‑4 hinausgehende Funktionen wie die Alternative Claude 2 als Sprachmodell, das viel längere Prompts erlaubt, und die schnelle Live-Suche auf Internetseiten. Beim alten GPT‑4 gelingt Vergleichbares nur mit Plugins.
Sind Perplexity und Dante damit Aspiranten auf die Nachfolge oder Wachablösung von GPT‑4? Nein, dazu fehlen ihnen weitgehend die eigenen Trainingsdaten. Doch ist der simple Austausch des Motors auch von fremden Anbietern unter der Haube etwas, das ChatGPT nicht bietet. Und dann ist auch noch die Funktion „Advanced Data Analysis“ bei GPT‑4, die das Hochladen eigener Dokumente erlaubt.
Der Markt wird unübersichtlich
Die Funktionalitäten der KIs werden weiter rasant erweitert. Der Markt wird für Laien zusehends unübersichtlich. Rund 7.500 KI-Dienste versammelt die „Übersicht“ namens There’s an AI for that. Was da jeweils unter der Motorhaube steckt und Erfolg hat, muss der Markt sichten und richten.
Und da haben wir bisher nicht über weiterhin agierende große alternative Dienste wie von Google („Bart“ und „Duet AI“) und der angeblichen europäischen Alternative Aleph Alpha aus Heidelberg gesprochen. Für Duet AI habe ich meine Freischaltung zum Testen beantragt, bei Aleph Alpha befand ich die Antwortqualität nach einem Test auf deren Spielwiese nicht konkurrenzfähig. Die Ansprüche steigen.
Die Welt der künstlichen Intelligenz (KI) ist seit vergangener Woche eine neue. Google Bard ist in Konkurrenz zu ChatGPT in Deutschland verfügbar. Platzhirsch ChatGPT hat einen starken „Code Interpreter“ hinzugefügt. Und mit Claude 2 bringt ein dritter leistungsstarker Protagonist eine neue Qualität in KI-Antworten.
Täglich kommen neue KI-Dienste hinzu, spezialisiert auf bestimmte Aufgaben. Der wichtigste große Dienste im Hintergrund war bisher in der Regel ChatGPT. Entweder in der kostenlosen Version 3.5 oder in der kostenpflichtigen Fassung 4 für 20 Dollar pro Monat. Eine neue Qualität erreichte die Viererversion seit der vergangenen Woche durch ein Plugin namens Code Interpreter. (Hier beschrieb ich, was es damit auf sich hat: Endlich Excel können ohne Excel zu können.)
Die künstliche Intelligenz von Google war unter dem Namen Bard bisher nur in den USA und Großbritannien nutzbar. Jetzt geht es auch in Deutschland und anderen Ländern. Erste Vergleiche mit ChatGPT zeigen, dass Google Bard besser darin ist, ausführliche und faktengetreue Antworten zu geben. ChatGPT dagegen hat bei phantasievollen Inhalten die Nase vorn, besonders in der Version 4. Die ältere Version 3.5 hält sich dagegen näher an vorgegebene Fakten.
Claude 2 von Anthropic legt dagegen wenig Wert auf phantasievolle Inhalte. Die Maschine hinterließ im Vergleich aller drei Dienste in den vergangenen Tagen den besten Eindruck, was Akkuratheit und Antwortqualität angeht. Zudem ist der Dienst ähnlich wie Bard und anders als GPT‑4 kostenlos. Herausragend ist eine Funktion, eigene Dokumente hochzuladen. Bis zu fünf PDFs lassen sich hochladen und analysieren. Die Maschine fasst die wichtigsten Inhalte zusammen und erlaubt gezielte Fragen.
Allerdings: Claude 2 funktioniert zurzeit nur in den USA und Großbritannien. Europäer müssen sich per VPN in den USA einwählen, um sich bei Claude anzumelden. Möglich wird das zum Beispiel über Dienste wie Bitdefender oder NordVPN.