Wie man auf die Schnelle mehrstündige Videos zusammengefasst bekommt

Avatar von Marcus Schwarze

Heute ein Service für all jene, die sich beruflich viele Videos anschauen oder sie selbst produzieren. Der folgende Trick bringt bei zwei Stunden YouTube-Konsum am Tag einen Zeitgewinn von 1¾ Stunden.

(Illus­tra­ti­on: Mar­cus Schwarze/Midjourney, KI-generiert)

Ja, ein­drei­vier­tel Stun­den. Zeitgewinn.

Den ent­spre­chen­den Wow-Moment über künst­li­che Intel­li­genz hat­te ich am Wochen­en­de nach einem Tweet von Rowan Cheung.

Man stel­le sich vor, eine Grup­pe Men­schen dis­ku­tie­re vor lau­fen­der Kame­ra eine Stun­de über ein gera­de ergan­ge­nes Gerichts­ur­teil. Auf Face­book und You­Tube gibt es bekannt­lich der­art lang­at­mi­ge Vide­os, auch ARD und ZDF fül­len so man­ches Abend­pro­gramm mit rei­nen Dis­kus­sio­nen. Nicht jeder hat die Zeit oder Lust, sich das alles anzu­se­hen. Eine Zusam­men­fas­sung fällt da schwer. Oder auch nur ein Durch­su­chen des Vide­os nach bestimm­ten getrof­fe­nen Aussagen.

Auf tritt sum​ma​ri​ze​.tech.

Der künst­li­chen Intel­li­genz speist man die You­Tube-Adres­se des gewünsch­ten Vide­os ein. 40 Sekun­den spä­ter ist der ein­stün­di­ge Small­talk zusam­men­ge­fasst. Auf Eng­lisch zwar, aber das lässt sich von ChatGPT oder DeepL übersetzen.

Wie kann die Maschi­ne so schnell eine Stun­de Dis­kus­si­on erfas­sen? Sie holt sich aus dem Video ledig­lich die Unter­ti­tel. Und die­se Tex­te wie­der­um kann eine Maschi­ne zusam­men­fas­sen. So wird aus einem lan­gen Video auf die Schnel­le ein Absatz mit den wesent­li­chen gespro­che­nen Infor­ma­tio­nen. Was fehlt, sind im Video zu sehen­de Informationen.

Jetzt stel­len Sie sich ein­mal vor, dass Fern­seh­sen­dun­gen und Inter­net­vi­de­os durch­such­bar wer­den. Nun sind sie es. Zumin­dest die mit Untertiteln.

Aller­dings: Auch hier kann die Tücke im Detail lie­gen. Denn wenn der You­Tuber die Unter­ti­tel auto­ma­tisch erstel­len ließ (You­Tube und Face­book machen das ja mög­lich) und sie nicht im Nach­hin­ein über­prüft, kön­nen sich Feh­ler bei der Sprach­er­ken­nung erge­ben. Und die set­zen sich dann auch in der Zusam­men­fas­sung von sum​ma​ri​ze​.tech fort.

In mei­nem Bei­spiel des Vide­os der Men­schen vor einem Gerichts­ge­bäu­de hat die Maschi­ne den Namen der ange­klag­ten Per­son fälsch­lich mit dem eines Zeu­gen ver­wech­selt. (Was aus Grün­den des Per­sön­lich­keits­schut­zes ver­mut­lich aus­nahms­wei­se hilf­reich ist.)

Der Dienst sum​ma​ri​ze​.tech möch­te nach der ers­ten Abfra­ge für ein Video auf die kos­ten­pflich­ti­ge Pre­mi­um­ver­si­on wech­seln. Dann heißt es, ein neu­es pri­va­tes Brow­ser­fens­ter zu wählen.

Bei Vide­os ohne Unter­ti­tel schei­tert die Maschi­ne. So schal­ten auch man­che Face­book-Live-Stars die Unter­ti­tel wohl bewusst aus. Zudem ist es auf Face­book nicht ohne Wei­te­res mög­lich, frem­de Vide­os herunterzuladen.

Mit dem Unter­ti­tel-Trick ist noch mehr mög­lich: Die Tex­te las­sen sich über Sei­ten wie Down­sub (Ach­tung, fie­se Wer­be­fens­ter) als Datei auf die eige­ne Fest­plat­te laden. Mit Copy-and-pas­te und dem Prompt

Fasse mir den folgenden Text zusammen

ent­steht in ChatGPT‑4 eine qua­li­ta­tiv bes­se­re Zusam­men­fas­sung als mit sum​ma​ri​ze​.tech. Und es wird mög­lich, gezielt nach Details aus dem Gespro­che­nen zu suchen: Wie lau­te­te das Urteil? Die Maschi­ne fin­det eine ent­spre­chen­de Text­pas­sa­ge und spuckt sie aus.

Bei beson­ders lan­gen Doku­men­ten gerät aber auch ChatGPT in der kos­ten­pflich­ti­gen Ver­si­on an sei­ne Gren­zen. Denn jede über­mit­tel­te Sil­be kos­tet die Her­stel­ler der künst­li­chen Intel­li­genz Geld für Rechen­kraft. Dar­um ist die Län­ge der über­mit­tel­ten Fra­ge wie auch die der Ant­wort begrenzt, auf soge­nann­te Tokens. Wer dann mal eben den 600-sei­ti­gen Bericht zum Zusam­men­fas­sen über­mit­teln möch­te, wird scheitern.

Aber auch dafür gibt es einen Trick. Nor­ma­ler­wei­se liegt die Gren­ze von GPT‑3 bei 4.000 Token und die des kos­ten­pflich­ti­gen GPT‑4 bei 8.000 Token (= ca. 12,5 Sei­ten). Wie Mike Kim auf Twit­ter schrieb, kann über die KIs Play​ground​.ai oder Bing oder Goog­le Bard das Limit aus­ge­wei­tet werden.

Ein ande­rer Weg besteht dar­in, das Doku­ment stück­wei­se nach­ein­an­der zusam­men­zu­fas­sen – und am Ende die Maschi­ne zu bit­ten, alle Zusam­men­fas­sun­gen zusam­men­zu­fas­sen. Aller­dings begrenzt die KI wie­der­um das eige­ne Erin­ne­rungs­ver­mö­gen an die ers­ten Zusam­men­fas­sun­gen. So könn­ten zusätz­li­che „zusam­men­fas­sen­de Zusam­men­fas­sun­gen von Zusam­men­fas­sun­gen“ nötig wer­den. Künf­tig soll das Limit auf 32.000 Token erhöht werden.

Wei­te­re Mög­lich­kei­ten beschreibt Die­go.

Des Wei­te­ren soll es mög­lich sein, das Text­ein­ga­be­feld von ChatGPT mit­tels der vom Brow­ser ein­ge­blen­de­ten Web­in­for­ma­tio­nen zu ver­grö­ßern. Das habe ich aller­dings nicht im Detail ausprobiert.

Die drei Screen­shots im Bild zei­gen das berühm­te 55-minü­ti­ge Video „Die Zer­stö­rung der CDU“ von Rezo aus 2019, die Zusam­men­fas­sung von sum​ma​ri​ze​.tech und die Über­set­zung von DeepL.