“Spraakherkenning is inmiddels nauwkeurig genoeg om video en audio met woord te indexeren”, stelt Richard Kranendonk.
In ‘Spotlight vindt meer’ (https://www.computable.nl/artikels/archief5/d11hb5ue.htm) schrijft Eric Vlietinck: “Voor het indexeren en terugvinden van multimedia-bestanden ben je altijd aangewezen op metadata die een documentalist aan het bestand hangt.” Dit is niet geheel juist. Reeds enkele jaren wordt taaltechnologie, vooral spraakherkenning en in mindere mate beeldherkenning, gebruikt om audio- en videobestanden te verrijken met metadata. Spraakherkenning is inmiddels nauwkeurig genoeg om video en audio waarin gesproken woord voorkomt te indexeren (een grote vocabulaire-engine haalt bij voldoende geluidskwaliteit een woordfoutniveau van circa 25 procent).
Het Nederlands Instituut voor Beeld en Geluid (het voormalig Nederlands Audiovisueel Archief) bijvoorbeeld zet dergelijke techniek om de collectie te indexeren en te ontsluiten. Zelf gebruiken we taaltechnologie van onder andere TNO om automatisch ’tags’ toe te voegen aan audiovisueel materiaal, zodat dit niet alleen op objectniveau geïndexeerd kan worden, maar ook binnen de objecten zelf. Dit levert interessante mogelijkheden op. Denk aan een reisjournaal op video, waarbij gedurende de speeltijd automatisch informatie uit externe bronnen getoond wordt. Terwijl het onderwerp van gesprek verandert, wordt telkens nieuwe relevante achtergrondinformatie (of advertenties) getoond.
Richard Kranendonk, Cross Content