Samenspel camera en computer

Dat de computer mensen in een bewegende menigte kan herkennen en hun gedrag classificeren, was vijf jaar geleden ondenkbaar. Inmiddels lopen de eerste proeven om potentiële tasjesdieven automatisch te signaleren. Vooral de verbeterde cameratechnologie heeft hieraan bijgedragen, maar ook het inzicht dat patroonherkenning gebaat is bij het inbouwen van vooroordelen.

Wat is een boot?”, vraagt prof. dr. ir. Arnold Smeulders, hoofd van het Intelligent Systems Lab van de Universiteit van Amsterdam en directeur van onderzoekschool Asci (Advanced School for Computing and Imaging). Hij geeft zelf het antwoord: “Een boot is een gat in het water. Water valt namelijk goed te herkennen met een computer. Als het wordt onderbroken, is dat door een rots of een boot. Ook rots valt eenvoudig te herkennen. De rest is boot. Als je zo redeneert, heb je de eerste 80 procent van de boten al herkend.”

De menselijke hersenen doen het ook zo. Eerst de makkelijke dingen er aan de hand van een aantal vooroordelen uitpikken en dan dieper nadenken over de rest. Een stoel staat in een ruimte waar gewoonlijk stoelen staan. Daarna is het een ding met vier poten en een rugleuning. Dat werkt in veel gevallen. Daarna moet je dieper nadenken over stoelen met één dikke poot met voet, klapstoelen en allicht ingewikkelde designstoelen die nauwelijks meer als zodanig herkenbaar zijn, voor mensen, laat staan voor computers. Het herkennen van mensen is lastig als het sneeuwt, bijvoorbeeld.

Smeulders: “Telkens weer blijken mensen zo goed te zijn in patroonherkenning dat het triviale problemen lijken. Dat komt omdat we al voor de kleuterschool goed leren kijken. We hebben het bijna altijd goed en denken daarom dat het makkelijk is. Bij statistische patroonherkenning met de computer gaat het er niet om dat je alles foutloos herkent, maar dat je weet hoe vaak het fout gaat.”

Schiphol

Automatische patroonherkenning is de laatste jaren met sprongen vooruit gegaan. Dat is voor een groot deel te danken aan de opmars van goede digitale camera’s. Vijf jaar geleden werkten onderzoekers meestal met datasets van zo’n honderd beelden. Die bij elkaar halen was al een hele klus. Nu zijn datasets van 10.000 beelden relatief eenvoudig te verwerven. Dus kan de computer beter getraind worden. In hoeverre je daadwerkelijk een succesvol systeem kunt bouwen, hangt echter sterk af van de verwachtingen, legt Smeulders uit: “Als je op Schiphol gezichten wilt herkennen, voorspel ik dat dat mislukt, want zes miljard gezichten uit elkaar houden lukt niet. Dat is echt iets heel anders dan het gezicht van de eigenaar herkennen bij de garagepoort. Die laatste taak is zes miljard keer zo eenvoudig.”

Het herkennen van gezichten is momenteel redelijk goed mogelijk, maar de laatste paar procenten stellen wetenschappers nog voor forse uitdagingen. Dat is vervelend, want dat laatste restje is nou juist het gat waar bedriegers doorheen proberen te kruipen. Waar gezichtsherkenning voor toegangscontrole gebruikt wordt, is het daarom vooralsnog een signaleringssysteem. Een mens velt in geval van twijfel het definitieve oordeel. Onder andere het Nederlands Forensisch Instituut in Rijswijk doet hier onderzoek naar.

Voor dergelijke gezichtsherkenning moeten mensen bovendien recht in de camera kijken. Een gezicht vanuit een willekeurige hoek herkennen valt voor de computer bepaald niet mee. Mensen uit een menigte pikken is ook stukken lastiger (zie kader ‘Veelplegers gevolgd’). Wat wel weer redelijk lukt is mensen volgen in een menigte, maar dat gebeurt voor een belangrijk deel op basis van kleding. Als iemand net buiten het zicht van de camera’s zijn jas uitdoet, is het systeem hem kwijt.

Kinderporno

De onderzoeksgroep van Smeulders aan de Universiteit van Amsterdam werk samen met TNO en de TU Delft aan een project voor de spoorwegen om verdacht gedrag op perrons te signaleren (zie ook het kader ‘Slimme camera’s’). “De grootste moeite gaat daarbij zitten in definieren wat normaal gedrag is”, zegt Smeulders, naar analogie van de boot in het water. Het is eenvoudiger normaal gedrag te herkennen en al het overige als abnormaal te definiëren dan omgekeerd. “Over een jaar gaat dit onderzoek iets opleveren dat bewakers kan inseinen.”

Een ander toepassingsgebied is in beslag genomen videomateriaal. Het kan rechercheurs veel tijd schelen als de computer een voorselectie maakt van mogelijk interessante beelden. In het geval van kinderporno kan het ook de emotionele belasting verminderen. Geen rechercheur wordt er vrolijk van als hij talloze banden met porno moet doornemen om de misbruikte kinderen te identificeren. De beeldkwaliteit blijft echter cruciaal. De computer kan veel beter overweg met heldere digitale beelden dan zwaar jpeg-gecomprimeerde beelden of zeven keer gekopieerde videobanden. Nu geldt dat voor mensen ook wel, maar die haken toch minder snel af. Die laatste paar procent waar een computer mee worstelt, valt voor de mens nog grotendeels binnen de normale prestaties. Om nog maar te zwijgen over een gecompliceerde taak als het vaststellen of een baby meer op zijn vader dan op zijn moeder lijkt – iets waar de gemiddelde tante geen enkele moeite mee heeft.

Slimme camera’s op stations

Op dit moment beheren de Nederlandse Spoorwegen en Prorail ongeveer 1500 camera’s op en rond stations. Die beelden kunnen niet allemaal continu in de gaten gehouden worden. Slechts een deel wordt live gemonitord vanuit een centrum in Amsterdam. De overige zijn op aanvraag te bekijken. De beelden worden wel allemaal opgeslagen. “Een aantal ontwikkelingen leidt ertoe dat we over een aantal jaren 4000 tot 5000 camera’s zullen hebben”, zegt John Dietz, beleidsadviseur concernveiligheid van NS. “Sociale veiligheid vraagt om meer camera’s in de trein. Daarmee wordt op de Zoetermeerlijn ervaring opgedaan. Ook terrorismepreventie vraagt om sterkere monitoring. Verder krijgen alle toegangspoortjes, die in de komende jaren geïnstalleerd worden, camera’s. Dat is nodig om misbruik te signaleren, maar ook om reizigers te kunnen assisteren.” Bij zoveel camerabeelden daalt de aandachtswaarde, tenzij je het aantal operators fors uitbreidt. Daarom ging NS op zoek naar een manier om de camera’s met intelligentie uit te rusten, zodat operators niet overspoeld raken met een vloed van oninteressante beelden. Door ze uit te rusten met sensoren kunnen camera’s zelf de eerste analyse uitvoeren.

“Uit een studie die we door TNO hebben laten uitvoeren, bleek dat bewegings- en geluidssensoren vooralsnog de beste mogelijkheden bieden”, zegt Dietz. “Het Groningse bedrijf Sound Intelligence heeft software ontworpen die agressief stemgeluid herkent. We hebben het getest in een rijdende trein en ook met al dat achtergrondgeluid werkt het. Op stations is geluidsanalyse lastiger, omdat er meer soorten achtergrondgeluid zijn. Ieder station heeft bovendien zijn eigen akoestiek, die ook nog eens afhangt van het aantal mensen in de hal.” Bij bewegingsanalyse draait het vooralsnog op het herkennen van relatief eenvoudige patronen. Zakkenrollers blijken er bijvoorbeeld een vast gedragspatroon op na te houden, dat automatisch uit de beelden te filteren valt. Hen volgen met verschillende camera’s lukt vooral door op hun kleding te letten. Ook verdachte pakketjes zijn automatisch te herkennen, omdat ze over langere tijd een onbeweeglijke toevoeging aan het beeld vormen.

Veelplegers gevolgd

LogicaCMG en het Rotterdamse winkelcentrum Zuidplein rondden eerder dit jaar een proef af waarbij gezichten in een bewegende menigte herkend werden. Het systeem had een aantal beelden van gezichten van vrijwilligers in zijn database, gefotografeerd van verschillende kanten. Die vrijwilligers liepen vervolgens door het winkelcentrum, waar de software hen met een nauwkeurigheid van negentig procent uit de opnames van de beveiligingscamera’s pikte. Volgens LogicaCMG kan dat percentage nog omhoog als de camera-infrastructuur in het winkelcentrum geoptimaliseerd wordt voor computerherkenning.

De gedachte is dat het systeem ooit gevuld kan worden met de gezichten van bekende winkeldieven, op wier aanwezigheid de beveiligingsmedewerkers dan gewezen kunnen worden. In theorie kun je er ook een straatverbod mee handhaven. Bij de daadwerkelijke implementatie spelen privacy-aspecten echter een belangrijke rol, want het systeem volgt individuen zonder dat zij het weten of tegen hun wil.

Voor een toepassing als deze is een slaagkans van negentig procent al heel respectabel, want het gaat alleen maar om de signaalfunctie, als hulp voor de medewerker die de hele dag naar schermpjes zit te staren. Om iemand daadwerkelijk te identificeren is negentig procent te weinig.

De technologie van patroonherkenning

Patroonherkenning is in wezen een vorm van statistiek. De computer krijgt een aantal voorbeelden van een patroon (input) en de klasse waarin dat patroon hoort (output). Als het systeem met de voorbeelden getraind is, legt het nieuwe beelden naast de voorbeelden en bepaalt waar dat nieuwe beeld het meest op lijkt. Een vuistregel luidt dat je per outputklasse ongeveer tien inputvoorbeelden nodig hebt.

Voor de trainingsstap en de daaropvolgende herkenningsstap bestaan verscheidene methoden. Een jaar of tien geleden waren neurale netwerken populair, tegenwoordig zijn support vectors, Bayes-netwerken en Markov-ketens populair. Heel globaal gesproken proberen de eerste twee methoden een wiskundig verband te vinden tussen input en output. Dat lukt uiteraard nooit helemaal. Daarom kiezen de laatste twee methoden voor een inherent statistische benadering. In beide gevallen bestaat echter over de juistheid van de uitkomst geen honderd procent zekerheid.

Voor die black box van de patroonherkenning zit een schil van kennis, die er voor moet zorgen dat alleen relevante kenmerken tot de patroonherkenning doordringen. Dat verhoogt de efficiëntie van de berekening. Die kennis betreft niet alleen het object zelf, maar ook de omstandigheden. In het geval van gezichtsherkenning betekent dat bijvoorbeeld dat het kapsel weggefilterd kan worden, omdat dat te veranderlijk is: het zou de patroonherkenningsmodule alleen maar in de war brengen. Hetzelfde geldt voor brillen en baarden: ook stoorzenders. Onder omstandigheden kan bijvoorbeeld belichting vallen. Als giromaten van cameraherkenning gebruik zouden maken, zou gecorrigeerd moeten worden voor de locatie van het apparaat en het tijdstip van de dag.

Anderzijds, als je op grond van voorkennis te veel delen van het beeld weghaalt, houdt de computer steeds minder informatie over om het beeld in een klasse in te delen. De patroonherkenning wordt dan instabiel. Het zoeken is dan ook altijd naar een balans tussen de hoeveelheid voorkennis, de hoeveelheid voorbeelden en de hoeveelheid te herkennen outputklassen.