ChatGPT bekommt Augen: So liest die KI Fotos

Avatar von Marcus Schwarze

Es geht weiter Schlag auf Schlag mit der künstlichen Intelligenz (KI). ChatGPT kann neuerdings Bilder interpretieren. Die Beispiele sind wild bis unglaublich – und setzen einen neuen Meilenstein.

Da lädt jemand ein Han­dy­fo­to einer Zeich­nung von einer Kon­fe­renz­ta­fel hoch, die KI macht dar­aus eine funk­tio­nie­ren­de Webseite:

Jemand aus Ita­li­en lädt ein Foto eines Wohn­zim­mers hoch und bit­tet um Vor­schlä­ge fürs Ver­schö­nern. Die Maschi­ne schlägt unter ande­rem Akzent­far­ben vor, inspi­riert von ita­lie­ni­schem Dekor:

Eine ver­wir­ren­de Ansamm­lung von Stra­ßen­schil­dern inter­pre­tiert ChatGPT: Ja, Du kannst hier ab 16 Uhr an einem Diens­tag für eine Stun­de parken:

Ein kaum durch­schau­ba­res Schau­bild zur Insta­bi­li­tät Afgha­ni­stans inter­pre­tiert die Maschi­ne nüchtern-sachlich:

Den Screen­shot eines Dash­boards baut ChatGPT fast 1:1 nach:

Prü­fungs­auf­ga­ben der Mathe­ma­tik und Phy­sik, hoch­ge­la­den als Foto, beant­wor­te­te die Maschi­ne mit ent­spre­chen­den For­meln (aller­dings sind die Ant­wor­ten wohl nicht in Gän­ze kor­rekt, wie die Dis­kus­si­on unter dem Tweet zeigt):

Für eine bestimm­te Innen­ar­chi­tek­tur und das dar­ge­stell­te Design fin­det die Maschi­ne offen­sicht­lich rich­ti­ger­wei­se den Begriff des „Athe­ni­schen Moder­nis­mus“ (ein­fach mal googeln):

Ope­nAI selbst zeigt, wie ChatGPT durch Bil­der, Anlei­tung und Ein Foto vom Werk­zeug­kof­fer bei einer Hand­wer­ker­auf­ga­be hel­fen kann:

Und dann war da noch die­ses Video einer ganz ande­ren Bau­stel­le, von Lex Fri­d­man mit Mark Zucker­berg, das erst­mals anschau­lich das viel bespro­che­ne und von vie­len schon wie­der tot­ge­sag­te Meta­ver­se zeigt – einen vir­tu­el­len Raum, an dem die Face­book-Schmie­de Meta feilt. Die Her­ren tra­gen eigent­lich schwe­re Bril­len und Kopf­hö­rer, doch die Tech­nik lässt die Gerä­te ver­schwin­den. Mimik und Spra­che wer­den künst­lich gene­riert, man wähnt sich in einem gemein­sa­men ver­dun­kel­ten Raum:

Das neue ChatGPT Vision

… konn­te ich noch nicht tes­ten, die Funk­ti­on wird erst nach und nach aus­ge­rollt. Vie­le wei­te­re Bei­spie­le zei­gen die Leis­tungs­fä­hig­keit, aber auch die Feh­ler. Ope­nAI selbst hat in einem Papier bereits unter­sucht, wel­che Gefah­ren von der neu­en Seh­fä­hig­keit der Maschi­nen aus­ge­hen kön­nen. Sie rei­chen von falsch erkann­ten gif­ti­gen Pil­zen bis zur Befeue­rung von Kli­schees und Vorurteilen.

Und noch eine Funk­ti­on wird bei ChatGPT gera­de popu­lär: die Fähig­keit, gespro­che­ne Prompts zu erken­nen und gespro­chen zu beant­wor­ten. Das ist zwar mit Blick auf die alten Damen Ale­xa und Siri kei­ne Meis­ter­leis­tung mehr, in Ver­knüp­fung mit KI-Leis­tun­gen im Hin­ter­grund aber für vie­le eben­so kras­ses Neuland.


Vie­len Dank fürs Lesen von Mar­cus Schwar­zes News­let­ter! Die­ser Post ist öffent­lich, also zögern Sie nicht, ihn zu teilen.


Mehr zur rasan­ten Ent­wick­lung der künst­li­chen Intel­li­genz bie­tet das Brie­fing Frank­fur­ter All­ge­mei­ne Pro D:ECONOMY. Dar­in auch der „Prompt der Woche“ mit bis­her zwei Bei­trä­gen von mir: