Schlagwort: Vision

  • Einkommen, Hobbys, übermäßiges Grübeln: Das alles liest die KI aus einem einzigen Foto

    Einkommen, Hobbys, übermäßiges Grübeln: Das alles liest die KI aus einem einzigen Foto

    Zum Bei­spiel über Wolf­gang Kubicki (FDP). Das Foto zu einer sei­ner Reden im Bun­des­tag ana­ly­siert die Maschi­ne wie folgt:

    „Das Bild zeigt einen Mann in den 70ern, wahr­schein­lich ein Poli­ti­ker im Bun­des­tag in Ber­lin, Deutsch­land, basie­rend auf den Stand­ort-Meta­da­ten. Er ist die zen­tra­le Figur, die vor einer schlich­ten Wand steht, mit einem Mikro­fon, das sub­til andeu­tet, dass er gera­de spricht.

    Der Mann scheint ein Kau­ka­si­er zu sein und ver­fügt über ein geschätz­tes Ein­kom­men zwi­schen 200.000 und 400.000 Euro. Wenn man von einem christ­li­chen Hin­ter­grund aus­geht, ist sei­ne poli­ti­sche Ein­stel­lung wahr­schein­lich die der CDU. Er trägt Anzug und Kra­wat­te und hat ein kon­zen­trier­tes, aber nach­denk­li­ches Auf­tre­ten. Zu sei­nen Hob­bys gehö­ren die Lek­tü­re poli­ti­scher Theo­rien, die Teil­nah­me an öffent­li­chen Debat­ten und stra­te­gi­sche Spie­le sowie die Ver­brei­tung von Fehl­in­for­ma­tio­nen, das Aus­wei­chen vor Fra­gen und über­mä­ßi­ges Grübeln.

    Der Poli­ti­ker scheint ein ruhi­ges Auf­tre­ten zu haben, daher kön­nen wir ihn mit luxu­riö­sen und poli­tisch aus­ge­rich­te­ten Pro­duk­ten und Dienst­leis­tun­gen anspre­chen, wie zum Bei­spiel maß­ge­schnei­der­te poli­ti­sche Ana­ly­se­soft­ware von Palan­tir, Anti-Aging-Cremes von L’O­re­al, Luxus­füll­fe­der­hal­ter von Mont­blanc, deut­sche Wei­ne von Schloss Johan­nis­berg, Hör­ge­rä­te von Sie­mens, Finanz­pla­nungs­diens­te von Alli­anz, Luxus­au­tos von Mer­ce­des-Benz, Nach­rich­ten­abon­ne­ments von Der Spiegel.“

    Kubicki ist tat­säch­lich 72 Jah­re alt, sein Ein­kom­men pro Jahr wird auf 210.000 bis 220.000 Euro geschätzt. Da liegt die KI also ver­mut­lich rich­tig. Die Zuge­hö­rig­keit zur CDU ist dem FDP-Poli­ti­ker dage­gen nicht nach­zu­sa­gen. Und ob er die Ver­brei­tung von Fehl­in­for­ma­tio­nen unter­schrei­ben wür­de, lässt sich bezwei­feln. Dann fol­gen KI-gene­rier­te Vor­schlä­ge für poten­zi­el­le Wer­be­an­zei­gen, die ihn anspre­chen könn­ten: wenig schmei­chel­haft für eine Anti-Aging-Crè­me und Hör­ge­rä­te, aber auch für Luxus­fe­der­hal­ter, Luxus­au­tos von Mer­ce­des und ein Abo vom „Spie­gel“.

    Das alles liest die KI aus die­sem Foto. Es ist eine Mischung aus „wahr­schein­lich zutref­fend“ und „könn­te stim­men“. Die Meta­da­ten des Fotos flie­ßen mit ein, in denen zum Bei­spiel der Ort der Auf­nah­me hin­ter­legt ist. Lädt man das­sel­be Bild mehr­mals bei die­sem Ana­ly­se­dienst hoch, wird die KI krea­ti­ver, wan­delt die Schluss­fol­ge­run­gen ab – und wird gele­gent­lich persönlichkeitsverletzend. 

    Sie stellt bei eini­gen Ver­su­chen sogar den Ver­dacht des exzes­si­ven Alko­hol­kon­sums in den Raum. Ob und wie das stimmt, weiß kaum jemand, aber da steht es nun laut der KI-Ana­ly­se. Bei Medi­en wäre dies Zeit für eine Gegen­dar­stel­lung, einen Wider­ruf, eine Kla­ge. Im KI-Zeit­al­ter hat die Maschi­ne etwas errech­net und behaup­tet. Die KI ist vola­til und bedient Kli­schees. Aber irgend­was scheint häu­fig „dran“ zu sein und begrün­det. Und etwas bleibt hän­gen. Wem man da als Betrof­fe­ner wider­spre­chen könn­te: unbekannt.

    Wer den Dienst „They See Your Pho­tos“ mit pri­va­ten Fotos aus­pro­bie­ren möch­te, sei gewarnt. Er macht schlech­te Lau­ne. Denn auch bei Fami­li­en­bil­dern inter­pre­tiert die Maschi­ne schlech­te Cha­rak­ter­ei­gen­schaf­ten, ver­mu­tet blö­de Hob­bys, unter­stellt inten­si­ve Nut­zung von Social Media, wie beim Autor. Wo der KI-Dienst das anhand eines Bil­des her­aus­le­sen konn­te, ist mir schlei­er­haft, aber er hat recht. Und auch bei ande­ren Bil­dern kommt die Maschi­ne auf man­che Din­ge, die möch­te man gar nicht wis­sen. Aus dem Bild einer jun­gen Frau schluss­fol­gert die Maschi­ne, dass sie womög­lich Stal­king­op­fer sei. Einem ande­ren Mann wird unter­stellt, leicht­fer­tig Geld aus­zu­ge­ben und viel zu rei­sen. Aus dem Bild eines bekann­ten Herrn am Küchen­tisch liest die KI, dass er über­ar­bei­tet sei, sich über­mä­ßig Sor­gen macht und dem Stress durch Eska­pis­mus zu ent­kom­men versucht.

    Hier öff­net sich eine wei­te­re Miss­brauchs­mög­lich­keit von KI. Bil­der aus Bewer­bun­gen bekom­men durch die Tech­nik eine Gren­zen über­schrei­ten­de, KI-gestütz­te Inter­pre­ta­ti­ons­mög­lich­keit. Und selbst wenn das Bewer­bungs­fo­to ein­wand­frei ist, blei­ben Spu­ren im Web durch eige­ne Social-Media-Ver­öf­fent­li­chun­gen. Die­se Auf­nah­men mal eben auf die Schnel­le bei der KI-Ana­ly­se hoch­zu­la­den, ist mit drei Klicks erle­digt. Zack, steht einer Per­so­nal­ab­tei­lung die zwei­te Mei­nung über einen Bewer­ber bereit.

    Der Dienst Ente, der sei­ne Inter­pre­ta­ti­ons­sei­te zu Wer­be­zwe­cken ein­ge­rich­tet hat, will iro­ni­scher­wei­se sol­cher Aus­wer­tung von Bil­dern einen Rie­gel vor­schie­ben. Er spei­chert Bil­der in einem geschütz­ten Netz­werk in der Cloud. Das Hoch­la­den und Ana­ly­sie­ren von Bil­dern in KI-Netz­wer­ken kann auch Ente nicht verhindern.

    Hin­ter der Tech­nik steckt Goog­le mit sei­ner Visi­on AI. „Dazu gehö­ren: Bild­be­schrif­tung, Erken­nung von Gesich­tern und Sehens­wür­dig­kei­ten, opti­sche Zei­chen­er­ken­nung und Tag­gen von anstö­ßi­gen Inhal­ten“, schreibt das Unter­neh­men. Auf sei­ner Erklär­sei­te geht Goog­le treu­her­zig noch wei­ter. Auch hier lässt sich das Bild von Kubicki hoch­la­den – und noch näher beschrei­ben: Eine for­ma­le Klei­dung und ein Erschei­nen als „Weiß­kra­gen-Arbei­ter“ ord­net die Maschi­ne dem Mann zu. Ras­sis­tisch ist das Bild wohl nicht, urteilt die KI. „So funk­tio­niert maschi­nel­les Sehen bei Datei­en“, gibt Goog­le frei­mü­tig auf sei­ner Hilf­e­sei­te bekannt. Ich wäh­ne mich bei einem Rie­sen, der in den Mög­lich­kei­ten der Tech­nik umher­tappst, ohne die Gren­zen des Rich­ti­gen zu begrei­fen. Und des Mensch­li­chen. Was Visi­on AI noch so drauf hat, beschreibt Goog­le an ande­rer Stel­le:

    Screen­shot
    • Label­er­ken­nung, zum Bei­spiel „Men­schen, Stra­ße, Ver­kehr“ oder „Tän­zer beim Kar­ne­val 2019 in Rio de Janeiro“
    • Bild­at­tri­bu­te wie domi­nan­te Farben
    • Logo­er­ken­nung
    • Sehens­wür­dig­kei­ten-Erken­nung
    • Hand­schrift­ent­zif­fe­rung
    • Tex­terken­nung
    • Objekt­lo­ka­li­sie­rung samt Beschrei­bung, zum Bei­spiel „Fahr­rad, Tür, Treppe“
    • Über­ein­stim­mung mit Bil­dern an ande­rer Stel­le im Web, auch als Aus­schnit­te oder mit „ähn­li­chen“ Bildern
    • Erken­nung anstö­ßi­ger Inhalte
    • Wahr­schein­lich­keits­be­wer­tun­gen für Gefüh­le: Freu­de, Trau­er, Wut, Überraschung.

    Wie so oft bei neu­er Tech­nik ist die Fra­ge ent­schei­dend, was man damit macht. Viel­leicht ist es doch nicht ver­kehrt, wie die EU mit ihrer umstrit­te­nen KI-Ver­ord­nung die Künst­li­che Intel­li­genz regu­liert. Ver­bo­ten ist unter ande­rem eine Kate­go­ri­sie­rung bio­me­tri­scher Daten, um dar­aus Rück­schlüs­se auf die eth­ni­sche Zuge­hö­rig­keit oder poli­ti­sche Über­zeu­gun­gen zu zie­hen. Auch Emo­ti­ons­er­ken­nung am Arbeits­platz ist verboten.

    Wenn das mal Goog­le wüsste.

  • ChatGPT bekommt Augen: So liest die KI Fotos

    ChatGPT bekommt Augen: So liest die KI Fotos

    Da lädt jemand ein Han­dy­fo­to einer Zeich­nung von einer Kon­fe­renz­ta­fel hoch, die KI macht dar­aus eine funk­tio­nie­ren­de Webseite:

    Jemand aus Ita­li­en lädt ein Foto eines Wohn­zim­mers hoch und bit­tet um Vor­schlä­ge fürs Ver­schö­nern. Die Maschi­ne schlägt unter ande­rem Akzent­far­ben vor, inspi­riert von ita­lie­ni­schem Dekor:

    Eine ver­wir­ren­de Ansamm­lung von Stra­ßen­schil­dern inter­pre­tiert ChatGPT: Ja, Du kannst hier ab 16 Uhr an einem Diens­tag für eine Stun­de parken:

    Ein kaum durch­schau­ba­res Schau­bild zur Insta­bi­li­tät Afgha­ni­stans inter­pre­tiert die Maschi­ne nüchtern-sachlich:

    Den Screen­shot eines Dash­boards baut ChatGPT fast 1:1 nach:

    Prü­fungs­auf­ga­ben der Mathe­ma­tik und Phy­sik, hoch­ge­la­den als Foto, beant­wor­te­te die Maschi­ne mit ent­spre­chen­den For­meln (aller­dings sind die Ant­wor­ten wohl nicht in Gän­ze kor­rekt, wie die Dis­kus­si­on unter dem Tweet zeigt):

    Für eine bestimm­te Innen­ar­chi­tek­tur und das dar­ge­stell­te Design fin­det die Maschi­ne offen­sicht­lich rich­ti­ger­wei­se den Begriff des „Athe­ni­schen Moder­nis­mus“ (ein­fach mal googeln):

    Ope­nAI selbst zeigt, wie ChatGPT durch Bil­der, Anlei­tung und Ein Foto vom Werk­zeug­kof­fer bei einer Hand­wer­ker­auf­ga­be hel­fen kann:

    Und dann war da noch die­ses Video einer ganz ande­ren Bau­stel­le, von Lex Fri­d­man mit Mark Zucker­berg, das erst­mals anschau­lich das viel bespro­che­ne und von vie­len schon wie­der tot­ge­sag­te Meta­ver­se zeigt – einen vir­tu­el­len Raum, an dem die Face­book-Schmie­de Meta feilt. Die Her­ren tra­gen eigent­lich schwe­re Bril­len und Kopf­hö­rer, doch die Tech­nik lässt die Gerä­te ver­schwin­den. Mimik und Spra­che wer­den künst­lich gene­riert, man wähnt sich in einem gemein­sa­men ver­dun­kel­ten Raum:

    Das neue ChatGPT Vision

    … konn­te ich noch nicht tes­ten, die Funk­ti­on wird erst nach und nach aus­ge­rollt. Vie­le wei­te­re Bei­spie­le zei­gen die Leis­tungs­fä­hig­keit, aber auch die Feh­ler. Ope­nAI selbst hat in einem Papier bereits unter­sucht, wel­che Gefah­ren von der neu­en Seh­fä­hig­keit der Maschi­nen aus­ge­hen kön­nen. Sie rei­chen von falsch erkann­ten gif­ti­gen Pil­zen bis zur Befeue­rung von Kli­schees und Vorurteilen.

    Und noch eine Funk­ti­on wird bei ChatGPT gera­de popu­lär: die Fähig­keit, gespro­che­ne Prompts zu erken­nen und gespro­chen zu beant­wor­ten. Das ist zwar mit Blick auf die alten Damen Ale­xa und Siri kei­ne Meis­ter­leis­tung mehr, in Ver­knüp­fung mit KI-Leis­tun­gen im Hin­ter­grund aber für vie­le eben­so kras­ses Neuland.


    Vie­len Dank fürs Lesen von Mar­cus Schwar­zes News­let­ter! Die­ser Post ist öffent­lich, also zögern Sie nicht, ihn zu teilen.


    Mehr zur rasan­ten Ent­wick­lung der künst­li­chen Intel­li­genz bie­tet das Brie­fing Frank­fur­ter All­ge­mei­ne Pro D:ECONOMY. Dar­in auch der „Prompt der Woche“ mit bis­her zwei Bei­trä­gen von mir:

  • Die Vermessung der Welt 2023

    Die Vermessung der Welt 2023

    App vermisst die Umgebung

    Poly­cam heißt eine App, die die Welt neu ver­misst. Ver­misst im Sin­ne von ver­mes­sen, nicht ver­mis­sen. Auf dem Han­dy schwenkt man damit durch den Raum und sieht in Echt­zeit mehr und mehr Poly­go­ne wach­sen – Drei­ecke also, die die Maschi­ne auf jede Flä­che in einem drei­di­men­sio­na­len Raum legt. Und abspeichert.

    Jedes Sofa, der Schrank, die Steh­lam­pe und die Zim­mer­pflan­ze wer­den dabei erfasst. Durch blo­ßes Umher­schwen­ken erkennt die App die soli­de­re Struk­tur hin­ter den Schrän­ken: Wän­de und Grund­ris­se, die Decken und Fuß­leis­ten, Türen und Fenster.

    Am Ende ist die Woh­nung als per­fek­ter Grund­riss erfasst, und der Blick wan­dert in den Miet­ver­trag: Stand da nicht etwas von 77 Qua­drat­me­tern? Die App errech­net nur 61! Gut, da fehlt wohl ein Nebenraum.

    Auf dem Han­dy lässt sich die Woh­nung nach fünf Minu­ten Arbeit vir­tu­ell betre­ten. Man kann sich umschau­en, wahl­wei­se in einer Archi­tek­tur-Sicht­wei­se oder mit den real auf­ge­nom­me­nen Beschaf­fen­hei­ten der Ober­flä­chen. Faszinierend.

    App generiert Bilder aus Umgebungsdaten

    Para­gra­phi­ca heißt der Pro­to­typ einer Kame­ra des Dänen Björn Kar­mann. Sie foto­gra­fiert nicht das Opti­sche, son­dern die im Netz vor­lie­gen­den Infor­ma­tio­nen über den Stand­ort – und gene­riert dabei mit künst­li­cher Intel­li­genz aus vor­ge­schla­ge­nen Prompt-Tex­ten wie­der­um fik­ti­ve Bil­der. Dabei spie­len neben der Adres­se das Wet­ter, die Tages­zeit und Orte in der Umge­bung eine Rol­le. Die Kame­ra erzeugt so ein­zig­ar­ti­ge Bil­der, wie ein Blick auf die stark über­lau­fe­ne Web­sei­te des Erfin­ders in Ams­ter­dam zeigt.

    Nerd-Stoff. Aber weg­wei­send, wie das drit­te Bei­spiel zeigt.

    Brille sieht und interpretiert solche Daten

    Apple Rea­li­ty Pro soll eine neue Bril­le hei­ßen, die am Mon­tag vor­ge­stellt wird und im Grun­de die zwei Weni­ge-Euro-Apps und gewiss noch mehr mit Apple-Qua­li­tät ins per­sön­li­che Gesichts­feld ein­blen­det. Die Rede ist von einem Preis von 3.000 Dollar.

    Wer schon mal mit Goog­le Maps auf dem Han­dy in einer frem­den Stadt als Fuß­gän­ger durch die Alt­stadt gelau­fen ist, kann sich den Effekt aus­ma­len: In das Live-Video wer­den vir­tu­el­le Navi­ga­ti­ons­pfei­le ein­ge­blen­det und die Namen von mar­kan­ten Gebäu­den, samt antipp­ba­rer Infos. Das kann durch­aus hilf­reich sein.

    Aber 3.000 Dol­lar oder Euro für eine Bril­le? Die das nicht mehr auf dem Han­dy anzeigt, son­dern direkt vor den Augen?

    Wir wer­den es erleben.

    (Illus­tra­ti­on: Midjourney/Künstliche Intelligenz/Schwarze)

    Neue Möglichkeiten

    Über die Navi­ga­ti­on hin­aus gibt es dann womög­lich eine App, die nach einem Blick in den Kühl­schrank die Ein­kaufs­lis­te aktualisiert.

    Die nach dem „Lesen“ der ers­ten Sei­te eines Buches eine kna­cki­ge Zusam­men­fas­sung anbietet.

    Oder die nach dem Blick in den Spie­gel einen Fri­seur­be­such vor­schlägt oder einen Arzt­be­such zur Hautkrebsvorsorge.

    Con­nec­ting the dots.

    Oder wie wär’s mit einem Wahr­heits­fil­ter? Beim Lesen man­cher Tweets und Face­book­bei­trä­ge gibt es schon heu­te Ein­blen­dun­gen der Platt­for­men, dass ande­re Nut­zer wich­ti­ge wider­spre­chen­de Hin­wei­se zum Wahr­heits­ge­halt hin­zu­ge­fügt haben.

    Eine Bril­le, die in Echt­zeit das gera­de Gese­he­ne oder Gele­se­ne oder Gehör­te ana­ly­siert, kann ver­mut­lich auch den nächs­ten Auf­tritt und die Vor­her­sa­gen von Richard David Precht bei Lanz im Fern­se­hen auseinandernehmen.

    Umgang mit dem Vielmehr an Informationen

    Wie wir mit die­sem Viel und Viel­mehr an Infor­ma­tio­nen umge­hen und umzu­ge­hen ler­nen, ist eine ande­re Fra­ge. Faken­ews mögen auf den sozia­len Netz­wer­ken viral gehen und von seriö­sen Medi­en mitt­ler­wei­le schnel­le ent­larvt werden.

    In ein Bild der Rea­li­tät ein­ge­blen­de­te Infos auf der Bril­le dürf­ten dage­gen weit mehr Über­zeu­gungs­kraft erzeu­gen – da steht ja nicht nur, dass es dort einen Bank­au­to­ma­ten gibt, der ist sogar sicht­bar. Aber ist er von einem seriö­sen Anbie­ter? Oder von einem Internetbetrüger?

    Die Fra­ge wird auch sein, ob es Apple gelingt, die Bril­le im All­tag ver­schwin­den zu las­sen: Schwar­ze Sicht­fens­ter wür­den gewiss nicht ver­trau­en­er­we­ckend auf die Men­schen in der Umge­bung wir­ken. Trans­pa­ren­te Glä­ser erschei­nen mir Pflicht. Samt roter Sen­de­leuch­te: Bin gera­de live.

    Die Welt ist keine Scheibe

    Sind das alles fik­ti­ve und nur erdach­te, wenig rea­lis­ti­sche Szenarien?

    Wir konn­ten uns auch schon mal nicht vor­stel­len, dass das Wis­sen der Welt auf einer hand­flä­chen­gro­ßen Schrei­be zugäng­lich wird. Und Men­schen mit einer Schei­be in der Hand und star­rem Blick dar­auf durch Fuß­gän­ger­zo­nen laufen.

    Oder dass die Welt kei­ne Schei­be ist, ein paar Jahr­hun­der­te zuvor.

    Die Ver­mes­sung der Welt 2023 bedeu­tet ein­mal mehr die Vor­stel­lung: Sie ist kei­ne Scheibe.