Video, doorzoekbaar, semantisch, beeld en geluid, vpro

5 miljoen jaar aan video nu in één klik doorzocht?

5 miljoen jaar. Zolang zou het mij kosten om alle video-content die nu online staat, te bekijken. Tenminste, dat stelt Lora Aroyo, onderzoeker aan de VU. Zij is opzoek naar manieren om relevante delen uit beeldmateriaal doorzoekbaar te maken. Voor journalisten betekent een dergelijke technologie dat beeldmateriaal semantisch doorzoekbaar wordt (dus zoals we nu op Google webpagina’s doorzoeken). Het wordt dan makkelijker om relevante stukjes video te vinden en daar specifieke informatie uit te halen. Nu moet je daarvoor de hele video bekijken. Gezien de substantiële lawine aan video-materiaal dat dagelijks wordt geüpload, lijkt me dit geen overbodige luxe.

Machines kunnen al enorm veel, stelt Aroyo. Zo kan software objecten en plaatsen herkennen in video. De context herkennen is echter nog een probleem. Aroyo heeft het hier over events, gebeurtenissen. Die geven betekenis aan het beeldmateriaal, en bepalen of het een relevant fragment is. Door de events te duiden en te indexeren wordt het, in theorie, mogelijk video’s te doorzoeken. Momenteel wordt het herkennen van events uitbesteed aan het publiek (crowdsourcing), dat handmatig gebeurtenissen in video’s identificeerd. Dit levert enorm veel data op, waarmee software kan worden geschreven die betekenisvolle gebeurtenissen in video kan herkennen.

In theorie is het dus mogelijk om met behulp van een computer video’s te doorzoeken. Tot zo ver een vrij technisch en academisch verhaal. In de journalistiek wordt hier namelijk nu al mee geëxperimenteerd. In samenwerking met Beeld & Geluid, komt de VPRO in mei met een nieuw populairwetenschappelijk programma: The Mind of the Universe. Al het video-materiaal van het programma (voornamelijk interviews met wetenschappers) is doorzoekbaar. Van elk fragment is automatisch het geluid omgezet naar tekst. Deze speech to text-technologie wordt steeds beter in het correct over zetten van spraak, maar de tekst wordt ook nog nagekeken. Van de woorden die vaak voorkomen in de teksten, wordt automatisch een wordcloud gemaakt waarmee gebruikers van de website op basis van thema’s video’s kunnen doorzoeken. Daarnaast zijn alle interviews handmatig in stukjes gehakt, en zijn er tags aan gehangen. Door op tags te klikken, heb je meteen een overzicht in welk interview welk onderwerp wordt behandeld. Het wordt zo voor gebruikers mogelijk om te zoeken naar specifieke onderwerpen, binnen een video en dan alleen dat fragment te bekijken. Beeld & Geluid en VPRO maken met (intensief) handwerk mogelijk wat Aroyo voor ogen heeft.

J-lab spotte deze trend tijdens het Crossmedia Café op 7 maart in Beeld & Geluid.