Schlagwort: Bilder

  • Bilder bilden weiter

    Bilder bilden weiter

    Ers­te Bei­spie­le beschrieb ich im „Prompt der Woche“ bei der F.A.Z., wei­te­re möch­te ich hier veranschaulichen.

    Da ist die­se Gra­fik glo­ba­ler Han­dels­strö­me der Welt­han­dels­or­ga­ni­sa­ti­on. Hoch­ge­la­den bei ChatGPT-4V, erkennt die Maschine:

    Das bereitgestellte Diagramm zeigt die globalen Handelsströme des Warenhandels im Jahr 2011 in Milliarden Dollar. Hier sind die wichtigsten Informationen aus dem Diagramm:Regionale Handelswerte (in Milliarden Dollar) für 2011:Europa: 4.667Asien/Pazifik: 2.926Nordamerika: 1.103Russland/GUS: 754Nahost: 710Lateinamerika: 200Afrika: (Der genaue Wert ist nicht sichtbar, aber es scheint etwas über 150 zu sein)Interregionale Handelsströme (in Milliarden Dollar):Beispielsweise handelte Europa Waren im Wert von 906 Milliarden Dollar mit Asien/Pazifik und 476 Milliarden Dollar mit Nordamerika. Es gibt auch andere Handelsströme zwischen verschiedenen Regionen, die durch Pfeile und Zahlen dargestellt werden.Steigerung der Exporte von 2011 im Vergleich zu 2010 (in %):Nahost: +37,4%GUS/Russland: +33,9%Lateinamerika: +27,4%Asien/Pazifik: +18,0%Europa: +17,4%Afrika: +16,8%Nordamerika: +16,2%Weltweit: +19,7%Das Diagramm gibt einen Überblick über die Handelsbeziehungen und -werte zwischen den verschiedenen Regionen der Welt für das Jahr 2011. Es zeigt auch, wie sich die Exporte dieser Regionen im Vergleich zum Vorjahr gesteigert haben. Die Datenquelle ist die World Trade Organization (WTO).

    Meh­re­re Feh­ler hat die­se Aus­wer­tung: Der regio­na­le Han­dels­wert für Afri­ka sei nicht sicht­bar, „aber es scheint etwas über 150 [Mil­li­ar­den Dol­lar] zu sein“. Die Gra­fik benennt tat­säch­lich 77 Mil­li­ar­den Dol­lar. Eben­so sind die Waren­wer­te zwi­schen Euro­pa und Asi­en sowie Nord­ame­ri­ka im Text falsch ange­ge­ben. Und auch bei den regio­na­len Han­dels­wer­ten von Russ­land und Nah­ost hat sich die Maschi­ne ver­tan, offen­bar die ähn­li­chen Zif­fern 7 und 1 in der Tex­terken­nung verwechselt.

    Es gilt also, höl­lisch auf­zu­pas­sen bei den Details.

    Dabei dürf­te schon hel­fen, statt einer JPG-Datei künf­tig ein PDF als Quel­le hoch­zu­la­den (bis­her geht das nicht). Dann ent­fie­le die feh­ler­be­haf­te Ziffernerkennung.

    Den­noch zeigt die­se maschi­nel­le Ana­ly­se die Rich­tung: Rich­ti­ger­wei­se hat die KI erkannt, wor­um es geht. Gelingt es jetzt noch, weni­ger Feh­ler ein­zu­bau­en – und dar­auf deu­tet die Ent­wick­lung hin –, so wer­den neue Erkennt­nis­se und Inter­pre­ta­tio­nen eine Sache von Sekun­den. Die Maschi­nen erkun­den Zusammenhänge.

    Worum geht’s hier?

    Der Prompt hier­zu lau­te­te: Wor­um geht’s? (Foto: Schwarze)

    Im Ansatz klappt das mit dem Bild einer Stell­ta­fel: Eine Grup­pe von Medi­en­ma­na­gern papp­te hier vor ein paar Jah­ren zu einem Zukunfts­the­ma Kle­be­zet­tel an die Wand, beschrie­ben mit Stich­wör­tern zur künf­ti­gen Bezahl­schran­ke eines Online-Ange­bots. Die hand­schrift­li­chen Zet­tel wur­den spä­ter von den Teil­neh­mern mit Punk­ten beklebt, je nach Ein­schät­zung der Wichtigkeit.

    Das hoch­ge­la­de­ne Foto der Stell­ta­fel wur­de von GPT-4V auf die lis­ti­ge Fra­ge „Wor­um geht’s?“ aus­ge­le­sen und mit drei, vier wei­te­ren fol­gen­den Prompts neu sor­tiert. Her­aus kam eine Tabel­le mit den wich­tigs­ten Punk­ten, soweit die Maschi­ne die Hand­schrift erken­nen konn­te. „Es scheint, als han­de­le es sich um ein Brain­stor­ming oder eine Pla­nungs­ta­fel zu den The­men ‚Con­tent‘ und ‚Ziel­grup­pe‘.“

    Die Maschi­ne war auch in der Lage, die Anzahl der auf­ge­kleb­ten Punk­te bei ein­zel­nen Kle­be­zet­teln aus­zu­zäh­len. Nicht per­fekt, aber es ergab eine ziel­füh­ren­de, gute Grundlage.

    Die Magie der KI ist dabei erkenn­bar, aber noch nicht zuver­läs­sig und all­tags­über­zeu­gend. Nicht jede Sau­klaue wird erkannt, die Anord­nung der Begrif­fe ver­rutscht teil­wei­se. Doch auch hier ste­hen wir ein­mal mehr am Anfang einer neu­en Ent­wick­lung. Der Pro­to­kol­lant sorgt sich um sei­nen Job, der Kol­le­ge mit KI-Kennt­nis­sen macht dar­aus sei­nen nächs­ten Karriereschritt.

    Bild-Posts für Social Media bewerten

    Für ein drit­tes Bei­spiel ver­wei­se ich auf den Kol­le­gen Felix Beil­harz: Er hat bei Lin­ke­dIn Bei­spie­le von Social-Media-Posts unter­sucht, bei GPT4‑V ein­ge­speist und um eine fach­kun­di­ge Stel­lung­nah­me gebe­ten, sinn­ge­mäß: Wie gut ist der Post? Ist die Schrift groß genug? Die Bebil­de­rung hilf­reich? Die Maschi­ne ent­deckt in dem hoch­ge­la­de­nen Bild unter ande­rem einen man­geln­den „Call to Action“, also eine kla­re Auf­for­de­rung, was der Leser oder die Leser als Nächs­tes machen sollte.

    Ein Flussdiagramm interpretieren

    Das vier­te und letz­te Bei­spiel für den Beginn einer neu­en Zeit ist mein Lieb­ling: Die fol­gen­de Gra­fik erstell­te ich wäh­rend der Coro­na­zeit für die Lan­des­re­gie­rung. Im extre­men Hoch­for­mat ver­an­schau­lich­te sie, wie lan­ge damals jemand in Qua­ran­tä­ne gehen muss­te, sobald ein Kol­le­ge im Büro sich als infi­ziert krankmeldete.

    Dem Dia­gramm ging ein genüss­li­cher Aus­tausch mit auf­ge­mal­ten Ent­wür­fen von Zeich­nun­gen von Fach­leu­ten voraus.

    GPT-4V ist in der Lage, dem ent­stan­de­nen Fluss­dia­gramm zu fol­gen – und die all­ge­mei­nen Regeln auf einen per­sön­li­chen Fall anzuwenden.

    Der Prompt: Wie lan­ge muss ich selbst in Qua­ran­tä­ne, wenn ich

    • a) mit dem infi­zier­ten Kol­le­gen am Mon­tag engen Kon­takt hatte,
    • b) heu­te Mitt­woch ist und
    • c) er sich krank­ge­mel­det hat,
    • d) ich soeben einen posi­ti­ven PCR-Test gemacht habe und
    • e) selbst Sym­pto­me aufweise?

    Die Ant­wort, gekürzt: Da Sie als posi­tiv getes­te­te Per­son gel­ten, müs­sen Sie sich (wei­ter­hin) iso­lie­ren. Sie haben zwei Optio­nen zur Been­di­gung der Qua­ran­tä­ne. Opti­on 1: Sie müs­sen sich frü­hes­tens am 11. Tag der Iso­la­ti­on erneut einem PCR-Test unter­zie­hen. Wenn die­ser Test nega­tiv ist, kön­nen Sie die Iso­la­ti­on frü­hes­tens am 14. Tag been­den. Opti­on 2: Sie müs­sen am ers­ten Tag der Sym­pto­me oder am 14. Tag der Iso­la­ti­on einen PCR-Test durch­füh­ren lassen.

    Das ist bei der Opti­on 2 zwar nicht 100 Pro­zent exakt, aber nahe dran. Die KI kann künf­tig auch dabei hel­fen, Unklar­hei­ten in bestimm­ten For­mu­lie­run­gen eines sol­chen Dia­gramms auf­zu­stö­bern. Jetzt stel­le man sich das Ergeb­nis in ein, zwei Jah­ren vor, wenn auch die Bild-Erken­nungs-KI erwach­sen wird.

    Beim Wie­der­fin­den des Stell­ta­fel-Bil­des inmit­ten von 55.000 Fotos half übri­gens eine ande­re KI: die von Apple Fotos. Sie hat alle die­se Bil­der unter­sucht, erkennt Moti­ve, Per­so­nen, Objek­te und Orte sowie hand­ge­schrie­be­ne und gedruck­te ent­hal­te­ne Tex­te. Die Suche lief nach dem Wort „Con­tent“, das ein­zi­ge, an das ich mich erin­nern konn­te. Gera­de hat Apple sei­ne iCloud-Funk­ti­on für bis zu 12 Tera­byte (statt bis­her 2 TB) an Daten freigeschaltet.


    Künstliche Intelligenz im Videokurs …

    Seit ver­gan­ge­ner Woche ist die kos­ten­pflich­ti­ge Wolf-Schnei­der-KI drau­ßen. Sie über­ar­bei­tet Tex­te nach den Regeln Schnei­ders. Ich hat­te sie bereits vor­ab mit­tes­ten kön­nen und Ergeb­nis­se hier beschrieben.

    Gemein­sam mit Ales­san­dro Alvia­ni von Ippen Media und den Kol­le­gen der Repor­ter­fa­brik gibt es par­al­lel zum Start der WSKI ein kos­ten­lo­ses Online-Semi­nar zu Künst­li­cher Intel­li­genz im Jour­na­lis­mus. Ales­san­dro gibt dazu einen Ein­blick in die Ent­wick­lung, ich steue­re prak­ti­sche Anwen­dun­gen bei.


    … und in der Branche

    Prak­ti­sche Lösun­gen für Publisher ste­hen auch im Mit­tel­punkt des Bran­chen­ma­ga­zins Kress Pro, das einen bekann­ten Prompt­prak­ti­kan­ten auf den Titel hob. Man soll­te ein Geschäfts­mo­dell dar­aus machen: Die Aus­ga­be kos­tet 38 Euro. Chef­re­dak­teur Mar­kus Wie­gand hat auf­ge­schrie­ben, um wel­che Anwen­dun­gen es im Ein­zel­nen geht.

    Eine KI-gestütz­te Ana­ly­se sei­nes Pos­tings (als Screen­shot) besagt unter ande­rem: „Das Titel­bild zeigt eine Nah­auf­nah­me eines Man­nes, der seri­ös und nach­denk­lich aus­sieht.“ So weit, so schmei­chel­haft (Dan­ke, Sascha!). Aber zu mög­li­chen Kri­tik­punk­ten: „Bild­aus­wahl: Obwohl das Foto des Man­nes pro­fes­sio­nell aus­sieht, könn­te es für eini­ge Betrach­ter nicht sofort klar sein, wer er ist oder wel­che Rol­le er im Kon­text des Maga­zin­the­mas spielt.“

  • Renaissance alter Bilder: Was KI kann und nicht darf

    Renaissance alter Bilder: Was KI kann und nicht darf

    Kürz­lich frag­te ein Kol­le­ge wäh­rend eines Work­shops, ob man das künst­lich erzeug­te Bild von Ex-Kanz­le­rin Mer­kel im Renais­sance-Stil dru­cken kön­ne. Ich hat­te es mit Hil­fe der Bil­der-KI Mid­jour­ney gene­riert, aber die Auf­lö­sung betrug nur 1024 × 1024 Pixel bei 72 ppi (Pixel pro Inch). Das reicht nicht für den Druck aus, es sei denn, man möch­te es in Brief­mar­ken­grö­ße aus­dru­cken. Bei einer grö­ße­ren Dar­stel­lung wür­de das Bild pixelig aussehen.

    Es gibt eine Web­sei­te namens „There’s an AI for that“, auf der rund 6.500 künst­li­che Intel­li­gen­zen für 1.800 Auf­ga­ben auf­ge­lis­tet sind. Um eine qua­li­ta­ti­ve Aus­wahl aus der Viel­zahl der Maschi­nen zu tref­fen, emp­fiehlt es sich, nach der Kate­go­rie „Most saved“ zu sor­tie­ren. Die­se Zahl gibt an, wie vie­le Men­schen die jewei­li­ge KI abge­spei­chert haben. Für das Ska­lie­ren von Bil­dern wer­den unter ande­rem Diens­te wie „Ups­ca­yl“, „Res­to­re­Pho­tos“ oder „Image­Ups­ca­lerAI“ genannt.

    Also habe ich es aus­pro­biert und bin bei Clip​drop​.co gelan­det. Dort kann man Bil­der für 9 Euro im Monat auf die dop­pel­te, vier­fa­che, acht­fa­che oder 16fache Grö­ße ska­lie­ren lassen.

    Erfundene Details

    Dabei wird das Bild nicht ein­fach nur ver­grö­ßert, wie es in Pho­to­shop üblich wäre. Die Maschi­ne erfin­det zusätz­li­che Details: zusätz­li­che Haut­fal­ten in pas­sen­der Umge­bung, wei­te­re Haa­re und Sträh­nen auf dem Kopf, und aus pixeli­gen Run­dun­gen wie der Iris im Auge wer­den weich­ge­zeich­ne­te Partien.

    (Im News­let­ter ist beson­ders auf dem Han­dy die Dar­stel­lung unten kaum unter­scheid­bar, eine grö­ße­re Dar­stel­lung gibt es auf der Web­sei­ten­ver­si­on.)

    Links das – nun ja – Ori­gi­nal, rechts die ska­lier­te Ver­si­on nach der Bear­bei­tung durch Clip­drop. (Illus­tra­tio­nen: KI-gene­rier­t/­Mid­jour­ney­/Clip­drop/­Schwar­ze)

    Das funk­tio­niert auch mit ech­ten Fotos. Ein fast zehn Jah­re altes Bild auf mei­ner Face­book-Sei­te zeigt Jour­na­lis­tin­nen und Jour­na­lis­ten bei einem Besuch bei einem Start­up in San Fran­cis­co – beengt im Raum, flei­ßig notie­rend und auch zwei­felnd, im Mit­tel­punkt ein klei­nes schil­lern­des Note­book auf dem Fuß­bo­den. Lei­der liegt das Bild nur in der damals von Face­book her­un­ter­ge­rech­ne­ten Auf­lö­sung von 2031 × 720 Pixeln vor. (In mei­ner Foto­samm­lung bei App­les Soft­ware „Fotos“ ist aus­ge­rech­net die­ses Bild mit einer Feh­ler­mel­dung versehen.)

    Auch die­ses Bild ska­liert Clip­drop in guter Qua­li­tät – aus 204 Kilo­byte wer­den 4 Megabyte.

    Jour­na­lis­tin­nen und Jour­na­lis­ten 2014 bei einem Start­up in San Fran­cis­co. (Foto: Schwarze)
    Die KI hat bei der Ver­grö­ße­rung pixelig dar­ge­stell­te Par­tien geglät­tet und neue Pixel hin­zu­ge­dich­tet. Foto oben (Aus­schnitt): Schwar­ze. Illus­tra­ti­on unten: KI-gene­rier­t/Clip­drop/­Schwar­ze.

    (Im News­let­ter ist beson­ders auf dem Han­dy die Dar­stel­lung oben kaum unter­scheid­bar, eine grö­ße­re Dar­stel­lung gibt es auf der Web­sei­ten­ver­si­on.)

    Bei genaue­rer Betrach­tung wer­den Fach­leu­te Feh­ler ent­de­cken. Ins­be­son­de­re die Augen­par­tien wir­ken an eini­gen Stel­len wie gemalt.

    Dafür ermög­li­chen sol­che Diens­te nun den groß­for­ma­ti­gen Druck und eine Renais­sance eige­ner Lieblingsbilder.

    Darf man das?

    Die Fra­ge bleibt, ob es dem jour­na­lis­ti­schen Ethos ent­spricht, sol­che ska­lier­ten Bil­der im redak­tio­nel­len All­tag zu ver­wen­den. Tech­nisch gese­hen kann man die­se Bil­der dru­cken, aber ob man das auch darf, ist eine ande­re Frage.

    Denn sol­che „Fotos“ sind nicht mehr „wahr­heits­ge­mäß“, wenn eine Maschi­ne Haut­fal­ten, Haa­re und ande­re Details hin­zu­fügt. Und auch bei erfun­de­nen Bil­dern wie der Renais­sance-Male­rei der frü­he­ren Bun­des­kanz­le­rin stellt sich die Fra­ge nach dem Respekt vor der Pri­vat­sphä­re. Ein frü­he­rer US-Prä­si­dent, der von der Maschi­ne als klei­ner Jun­ge gene­riert wird, sorgt im Netz für kur­ze Lacher – aber die Dar­stel­lung ist ver­mut­lich nicht „fair“. Ein Zusatz wie „KI-gene­rier­t/­Mid­jour­ney­/­Schwar­ze“ lässt kei­nen Zwei­fel offen.

    Illus­tra­ti­on: KI-gene­rier­t/­Mid­jour­ney­/­Schwar­ze. Prompt: Trump as a child —s 750.

    Neben den Per­sön­lich­keits­rech­ten der abge­bil­de­ten Per­so­nen müs­sen auch die Geschäfts­be­din­gun­gen der Maschi­nen­an­bie­ter geprüft wer­den. Mid­jour­ney erlaubt zum Bei­spiel (ein­ge­schränkt) die kom­mer­zi­el­le Nut­zung sei­nes Diens­tes, vor­aus­ge­setzt, man bezahlt dafür. Aller­dings dür­fen dann auch ande­re Nut­zer die­se Bil­der ver­wen­den, zum Bei­spiel für einen „Remix“.

    Mit geschütztem Material trainiert

    Hin­zu kommt, dass das Bild von Mer­kel auf Auf­nah­men basiert, die von pro­fes­sio­nel­len Foto­gra­fin­nen und Foto­gra­fen gemacht wur­den, ohne dass sie für ihre Arbeit und die Nut­zungs­rech­te an den Auf­nah­men ent­lohnt wur­den. In den USA läuft eine Sam­mel­kla­ge gegen Bil­der-KIs, weil der Ver­dacht besteht, dass die künst­li­chen Intel­li­gen­zen mit urhe­ber­recht­lich geschütz­tem Mate­ri­al trai­niert wurden.

    Das Unter­neh­men Ado­be geht daher einen ande­ren Weg: Für das Trai­ning der KI des Pho­to­shop-Her­stel­lers wur­den aus­schließ­lich lizen­zier­te Fotos ver­wen­det. Aller­dings ist zumin­dest nach den aktu­el­len Geschäfts­be­din­gun­gen der Beta-Pha­se der KI wie­der­um kei­ne kom­mer­zi­el­le Nut­zung erlaubt. Die KI-gene­rier­ten Bil­der sind nur für den per­sön­li­chen Gebrauch bestimmt.

    Weitere Themen