Schlagwort: Videos

  • Wie man auf die Schnelle mehrstündige Videos zusammengefasst bekommt

    Wie man auf die Schnelle mehrstündige Videos zusammengefasst bekommt

    (Illus­tra­ti­on: Mar­cus Schwarze/Midjourney, KI-generiert)

    Ja, ein­drei­vier­tel Stun­den. Zeitgewinn.

    Den ent­spre­chen­den Wow-Moment über künst­li­che Intel­li­genz hat­te ich am Wochen­en­de nach einem Tweet von Rowan Cheung.

    Man stel­le sich vor, eine Grup­pe Men­schen dis­ku­tie­re vor lau­fen­der Kame­ra eine Stun­de über ein gera­de ergan­ge­nes Gerichts­ur­teil. Auf Face­book und You­Tube gibt es bekannt­lich der­art lang­at­mi­ge Vide­os, auch ARD und ZDF fül­len so man­ches Abend­pro­gramm mit rei­nen Dis­kus­sio­nen. Nicht jeder hat die Zeit oder Lust, sich das alles anzu­se­hen. Eine Zusam­men­fas­sung fällt da schwer. Oder auch nur ein Durch­su­chen des Vide­os nach bestimm­ten getrof­fe­nen Aussagen.

    Auf tritt sum​ma​ri​ze​.tech.

    Der künst­li­chen Intel­li­genz speist man die You­Tube-Adres­se des gewünsch­ten Vide­os ein. 40 Sekun­den spä­ter ist der ein­stün­di­ge Small­talk zusam­men­ge­fasst. Auf Eng­lisch zwar, aber das lässt sich von ChatGPT oder DeepL übersetzen.

    Wie kann die Maschi­ne so schnell eine Stun­de Dis­kus­si­on erfas­sen? Sie holt sich aus dem Video ledig­lich die Unter­ti­tel. Und die­se Tex­te wie­der­um kann eine Maschi­ne zusam­men­fas­sen. So wird aus einem lan­gen Video auf die Schnel­le ein Absatz mit den wesent­li­chen gespro­che­nen Infor­ma­tio­nen. Was fehlt, sind im Video zu sehen­de Informationen.

    Jetzt stel­len Sie sich ein­mal vor, dass Fern­seh­sen­dun­gen und Inter­net­vi­de­os durch­such­bar wer­den. Nun sind sie es. Zumin­dest die mit Untertiteln.

    Aller­dings: Auch hier kann die Tücke im Detail lie­gen. Denn wenn der You­Tuber die Unter­ti­tel auto­ma­tisch erstel­len ließ (You­Tube und Face­book machen das ja mög­lich) und sie nicht im Nach­hin­ein über­prüft, kön­nen sich Feh­ler bei der Sprach­er­ken­nung erge­ben. Und die set­zen sich dann auch in der Zusam­men­fas­sung von sum​ma​ri​ze​.tech fort.

    In mei­nem Bei­spiel des Vide­os der Men­schen vor einem Gerichts­ge­bäu­de hat die Maschi­ne den Namen der ange­klag­ten Per­son fälsch­lich mit dem eines Zeu­gen ver­wech­selt. (Was aus Grün­den des Per­sön­lich­keits­schut­zes ver­mut­lich aus­nahms­wei­se hilf­reich ist.)

    Der Dienst sum​ma​ri​ze​.tech möch­te nach der ers­ten Abfra­ge für ein Video auf die kos­ten­pflich­ti­ge Pre­mi­um­ver­si­on wech­seln. Dann heißt es, ein neu­es pri­va­tes Brow­ser­fens­ter zu wählen.

    Bei Vide­os ohne Unter­ti­tel schei­tert die Maschi­ne. So schal­ten auch man­che Face­book-Live-Stars die Unter­ti­tel wohl bewusst aus. Zudem ist es auf Face­book nicht ohne Wei­te­res mög­lich, frem­de Vide­os herunterzuladen.

    Mit dem Unter­ti­tel-Trick ist noch mehr mög­lich: Die Tex­te las­sen sich über Sei­ten wie Down­sub (Ach­tung, fie­se Wer­be­fens­ter) als Datei auf die eige­ne Fest­plat­te laden. Mit Copy-and-pas­te und dem Prompt

    Fasse mir den folgenden Text zusammen

    ent­steht in ChatGPT‑4 eine qua­li­ta­tiv bes­se­re Zusam­men­fas­sung als mit sum​ma​ri​ze​.tech. Und es wird mög­lich, gezielt nach Details aus dem Gespro­che­nen zu suchen: Wie lau­te­te das Urteil? Die Maschi­ne fin­det eine ent­spre­chen­de Text­pas­sa­ge und spuckt sie aus.

    Bei beson­ders lan­gen Doku­men­ten gerät aber auch ChatGPT in der kos­ten­pflich­ti­gen Ver­si­on an sei­ne Gren­zen. Denn jede über­mit­tel­te Sil­be kos­tet die Her­stel­ler der künst­li­chen Intel­li­genz Geld für Rechen­kraft. Dar­um ist die Län­ge der über­mit­tel­ten Fra­ge wie auch die der Ant­wort begrenzt, auf soge­nann­te Tokens. Wer dann mal eben den 600-sei­ti­gen Bericht zum Zusam­men­fas­sen über­mit­teln möch­te, wird scheitern.

    Aber auch dafür gibt es einen Trick. Nor­ma­ler­wei­se liegt die Gren­ze von GPT‑3 bei 4.000 Token und die des kos­ten­pflich­ti­gen GPT‑4 bei 8.000 Token (= ca. 12,5 Sei­ten). Wie Mike Kim auf Twit­ter schrieb, kann über die KIs Play​ground​.ai oder Bing oder Goog­le Bard das Limit aus­ge­wei­tet werden.

    Ein ande­rer Weg besteht dar­in, das Doku­ment stück­wei­se nach­ein­an­der zusam­men­zu­fas­sen – und am Ende die Maschi­ne zu bit­ten, alle Zusam­men­fas­sun­gen zusam­men­zu­fas­sen. Aller­dings begrenzt die KI wie­der­um das eige­ne Erin­ne­rungs­ver­mö­gen an die ers­ten Zusam­men­fas­sun­gen. So könn­ten zusätz­li­che „zusam­men­fas­sen­de Zusam­men­fas­sun­gen von Zusam­men­fas­sun­gen“ nötig wer­den. Künf­tig soll das Limit auf 32.000 Token erhöht werden.

    Wei­te­re Mög­lich­kei­ten beschreibt Die­go.

    Des Wei­te­ren soll es mög­lich sein, das Text­ein­ga­be­feld von ChatGPT mit­tels der vom Brow­ser ein­ge­blen­de­ten Web­in­for­ma­tio­nen zu ver­grö­ßern. Das habe ich aller­dings nicht im Detail ausprobiert.

    Die drei Screen­shots im Bild zei­gen das berühm­te 55-minü­ti­ge Video „Die Zer­stö­rung der CDU“ von Rezo aus 2019, die Zusam­men­fas­sung von sum​ma​ri​ze​.tech und die Über­set­zung von DeepL.