Schlagwort: Vision

  • ChatGPT bekommt Augen: So liest die KI Fotos

    ChatGPT bekommt Augen: So liest die KI Fotos

    Da lädt jemand ein Han­dy­fo­to einer Zeich­nung von einer Kon­fe­renz­ta­fel hoch, die KI macht dar­aus eine funk­tio­nie­ren­de Webseite:

    Jemand aus Ita­li­en lädt ein Foto eines Wohn­zim­mers hoch und bit­tet um Vor­schlä­ge fürs Ver­schö­nern. Die Maschi­ne schlägt unter ande­rem Akzent­far­ben vor, inspi­riert von ita­lie­ni­schem Dekor:

    Eine ver­wir­ren­de Ansamm­lung von Stra­ßen­schil­dern inter­pre­tiert ChatGPT: Ja, Du kannst hier ab 16 Uhr an einem Diens­tag für eine Stun­de parken:

    Ein kaum durch­schau­ba­res Schau­bild zur Insta­bi­li­tät Afgha­ni­stans inter­pre­tiert die Maschi­ne nüchtern-sachlich:

    Den Screen­shot eines Dash­boards baut ChatGPT fast 1:1 nach:

    Prü­fungs­auf­ga­ben der Mathe­ma­tik und Phy­sik, hoch­ge­la­den als Foto, beant­wor­te­te die Maschi­ne mit ent­spre­chen­den For­meln (aller­dings sind die Ant­wor­ten wohl nicht in Gän­ze kor­rekt, wie die Dis­kus­si­on unter dem Tweet zeigt):

    Für eine bestimm­te Innen­ar­chi­tek­tur und das dar­ge­stell­te Design fin­det die Maschi­ne offen­sicht­lich rich­ti­ger­wei­se den Begriff des „Athe­ni­schen Moder­nis­mus“ (ein­fach mal googeln):

    Ope­nAI selbst zeigt, wie ChatGPT durch Bil­der, Anlei­tung und Ein Foto vom Werk­zeug­kof­fer bei einer Hand­wer­ker­auf­ga­be hel­fen kann:

    Und dann war da noch die­ses Video einer ganz ande­ren Bau­stel­le, von Lex Fri­d­man mit Mark Zucker­berg, das erst­mals anschau­lich das viel bespro­che­ne und von vie­len schon wie­der tot­ge­sag­te Meta­ver­se zeigt – einen vir­tu­el­len Raum, an dem die Face­book-Schmie­de Meta feilt. Die Her­ren tra­gen eigent­lich schwe­re Bril­len und Kopf­hö­rer, doch die Tech­nik lässt die Gerä­te ver­schwin­den. Mimik und Spra­che wer­den künst­lich gene­riert, man wähnt sich in einem gemein­sa­men ver­dun­kel­ten Raum:

    Das neue ChatGPT Vision

    … konn­te ich noch nicht tes­ten, die Funk­ti­on wird erst nach und nach aus­ge­rollt. Vie­le wei­te­re Bei­spie­le zei­gen die Leis­tungs­fä­hig­keit, aber auch die Feh­ler. Ope­nAI selbst hat in einem Papier bereits unter­sucht, wel­che Gefah­ren von der neu­en Seh­fä­hig­keit der Maschi­nen aus­ge­hen kön­nen. Sie rei­chen von falsch erkann­ten gif­ti­gen Pil­zen bis zur Befeue­rung von Kli­schees und Vorurteilen.

    Und noch eine Funk­ti­on wird bei ChatGPT gera­de popu­lär: die Fähig­keit, gespro­che­ne Prompts zu erken­nen und gespro­chen zu beant­wor­ten. Das ist zwar mit Blick auf die alten Damen Ale­xa und Siri kei­ne Meis­ter­leis­tung mehr, in Ver­knüp­fung mit KI-Leis­tun­gen im Hin­ter­grund aber für vie­le eben­so kras­ses Neuland.


    Vie­len Dank fürs Lesen von Mar­cus Schwar­zes News­let­ter! Die­ser Post ist öffent­lich, also zögern Sie nicht, ihn zu teilen.


    Mehr zur rasan­ten Ent­wick­lung der künst­li­chen Intel­li­genz bie­tet das Brie­fing Frank­fur­ter All­ge­mei­ne Pro D:ECONOMY. Dar­in auch der „Prompt der Woche“ mit bis­her zwei Bei­trä­gen von mir:

  • Die Vermessung der Welt 2023

    Die Vermessung der Welt 2023

    App vermisst die Umgebung

    Poly­cam heißt eine App, die die Welt neu ver­misst. Ver­misst im Sin­ne von ver­mes­sen, nicht ver­mis­sen. Auf dem Han­dy schwenkt man damit durch den Raum und sieht in Echt­zeit mehr und mehr Poly­go­ne wach­sen – Drei­ecke also, die die Maschi­ne auf jede Flä­che in einem drei­di­men­sio­na­len Raum legt. Und abspeichert.

    Jedes Sofa, der Schrank, die Steh­lam­pe und die Zim­mer­pflan­ze wer­den dabei erfasst. Durch blo­ßes Umher­schwen­ken erkennt die App die soli­de­re Struk­tur hin­ter den Schrän­ken: Wän­de und Grund­ris­se, die Decken und Fuß­leis­ten, Türen und Fenster.

    Am Ende ist die Woh­nung als per­fek­ter Grund­riss erfasst, und der Blick wan­dert in den Miet­ver­trag: Stand da nicht etwas von 77 Qua­drat­me­tern? Die App errech­net nur 61! Gut, da fehlt wohl ein Nebenraum.

    Auf dem Han­dy lässt sich die Woh­nung nach fünf Minu­ten Arbeit vir­tu­ell betre­ten. Man kann sich umschau­en, wahl­wei­se in einer Archi­tek­tur-Sicht­wei­se oder mit den real auf­ge­nom­me­nen Beschaf­fen­hei­ten der Ober­flä­chen. Faszinierend.

    App generiert Bilder aus Umgebungsdaten

    Para­gra­phi­ca heißt der Pro­to­typ einer Kame­ra des Dänen Björn Kar­mann. Sie foto­gra­fiert nicht das Opti­sche, son­dern die im Netz vor­lie­gen­den Infor­ma­tio­nen über den Stand­ort – und gene­riert dabei mit künst­li­cher Intel­li­genz aus vor­ge­schla­ge­nen Prompt-Tex­ten wie­der­um fik­ti­ve Bil­der. Dabei spie­len neben der Adres­se das Wet­ter, die Tages­zeit und Orte in der Umge­bung eine Rol­le. Die Kame­ra erzeugt so ein­zig­ar­ti­ge Bil­der, wie ein Blick auf die stark über­lau­fe­ne Web­sei­te des Erfin­ders in Ams­ter­dam zeigt.

    Nerd-Stoff. Aber weg­wei­send, wie das drit­te Bei­spiel zeigt.

    Brille sieht und interpretiert solche Daten

    Apple Rea­li­ty Pro soll eine neue Bril­le hei­ßen, die am Mon­tag vor­ge­stellt wird und im Grun­de die zwei Weni­ge-Euro-Apps und gewiss noch mehr mit Apple-Qua­li­tät ins per­sön­li­che Gesichts­feld ein­blen­det. Die Rede ist von einem Preis von 3.000 Dollar.

    Wer schon mal mit Goog­le Maps auf dem Han­dy in einer frem­den Stadt als Fuß­gän­ger durch die Alt­stadt gelau­fen ist, kann sich den Effekt aus­ma­len: In das Live-Video wer­den vir­tu­el­le Navi­ga­ti­ons­pfei­le ein­ge­blen­det und die Namen von mar­kan­ten Gebäu­den, samt antipp­ba­rer Infos. Das kann durch­aus hilf­reich sein.

    Aber 3.000 Dol­lar oder Euro für eine Bril­le? Die das nicht mehr auf dem Han­dy anzeigt, son­dern direkt vor den Augen?

    Wir wer­den es erleben.

    (Illus­tra­ti­on: Midjourney/Künstliche Intelligenz/Schwarze)

    Neue Möglichkeiten

    Über die Navi­ga­ti­on hin­aus gibt es dann womög­lich eine App, die nach einem Blick in den Kühl­schrank die Ein­kaufs­lis­te aktualisiert.

    Die nach dem „Lesen“ der ers­ten Sei­te eines Buches eine kna­cki­ge Zusam­men­fas­sung anbietet.

    Oder die nach dem Blick in den Spie­gel einen Fri­seur­be­such vor­schlägt oder einen Arzt­be­such zur Hautkrebsvorsorge.

    Con­nec­ting the dots.

    Oder wie wär’s mit einem Wahr­heits­fil­ter? Beim Lesen man­cher Tweets und Face­book­bei­trä­ge gibt es schon heu­te Ein­blen­dun­gen der Platt­for­men, dass ande­re Nut­zer wich­ti­ge wider­spre­chen­de Hin­wei­se zum Wahr­heits­ge­halt hin­zu­ge­fügt haben.

    Eine Bril­le, die in Echt­zeit das gera­de Gese­he­ne oder Gele­se­ne oder Gehör­te ana­ly­siert, kann ver­mut­lich auch den nächs­ten Auf­tritt und die Vor­her­sa­gen von Richard David Precht bei Lanz im Fern­se­hen auseinandernehmen.

    Umgang mit dem Vielmehr an Informationen

    Wie wir mit die­sem Viel und Viel­mehr an Infor­ma­tio­nen umge­hen und umzu­ge­hen ler­nen, ist eine ande­re Fra­ge. Faken­ews mögen auf den sozia­len Netz­wer­ken viral gehen und von seriö­sen Medi­en mitt­ler­wei­le schnel­le ent­larvt werden.

    In ein Bild der Rea­li­tät ein­ge­blen­de­te Infos auf der Bril­le dürf­ten dage­gen weit mehr Über­zeu­gungs­kraft erzeu­gen – da steht ja nicht nur, dass es dort einen Bank­au­to­ma­ten gibt, der ist sogar sicht­bar. Aber ist er von einem seriö­sen Anbie­ter? Oder von einem Internetbetrüger?

    Die Fra­ge wird auch sein, ob es Apple gelingt, die Bril­le im All­tag ver­schwin­den zu las­sen: Schwar­ze Sicht­fens­ter wür­den gewiss nicht ver­trau­en­er­we­ckend auf die Men­schen in der Umge­bung wir­ken. Trans­pa­ren­te Glä­ser erschei­nen mir Pflicht. Samt roter Sen­de­leuch­te: Bin gera­de live.

    Die Welt ist keine Scheibe

    Sind das alles fik­ti­ve und nur erdach­te, wenig rea­lis­ti­sche Szenarien?

    Wir konn­ten uns auch schon mal nicht vor­stel­len, dass das Wis­sen der Welt auf einer hand­flä­chen­gro­ßen Schrei­be zugäng­lich wird. Und Men­schen mit einer Schei­be in der Hand und star­rem Blick dar­auf durch Fuß­gän­ger­zo­nen laufen.

    Oder dass die Welt kei­ne Schei­be ist, ein paar Jahr­hun­der­te zuvor.

    Die Ver­mes­sung der Welt 2023 bedeu­tet ein­mal mehr die Vor­stel­lung: Sie ist kei­ne Scheibe.