Maja Pantic: 'Het systeem begint mij nu een beetje te kennen'

Dr. ir. Maja Pantic van de TU Delft doet onderzoek op het gebied van gezichts- en emotieherkenning door computers voor interactie met die machines. Ze heeft in 1996 haar Masters-graad gehaald en is in 2001 gepromoveerd. In totaal werkt ze dus al ruim zeven jaar aan gezichtsherkenning; hoe je de expressie van een gezicht kan herkennen. Dit onderzoeksterrein is al sinds 1991 ‘hot’.


Dr. ir. Maja Pantic: "Ik ben hier voorgoed mee bezig."

Wat komt er zoal kijken bij emotieherkenning?
"Je moet eerst bepalen wat de basisuitdrukking van iemands gezicht is om er een ‘mapping’ van te kunnen maken, het in kaart te brengen. Daarbij is spieractiviteit het moeilijkst te bepalen. Dat had ik van tevoren wel gedacht, maar het blijkt nóg moeilijker. Er zijn namelijk meer dan tweehonderd spieren die vierenveertig verschillende ‘action units’ hebben. Die combineerbare actie-eenheden (individuele bewegingen – red.) zijn in de jaren zeventig geformuleerd door psycholoog Paul Ekman. Ik heb in mijn onderzoek tweeëndertig van die actie-eenheden in kaart kunnen brengen, dat is meer dan ooit eerder is bereikt.

Aan de vooravond van het Nederlands ICT-Kenniscongres 2003 op 4 en 5 september publiceert Computable vier interviews met Nederlandse wetenschappers die met financiële steun van de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO) ict-gerelateerd onderzoek doen.

Carnegie Melon kan er zestien herkennen en Ekman zelf heeft er zes plus acht herkend. Van die tweeëndertig zijn er negenentwintig afzonderlijk. Die zijn dus echt bruikbaar. Het verschil zit hem in niet goed waarneembare of herkenbare bewegingen, zoals een tong in de wang."

Hoezo is zo’n beweging niet goed herkenbaar?
"Ik werkte eerst met stilstaande beelden en daarop is de nuance niet goed zichtbaar. Nu ben ik bezig met bewegende beelden, door twee camera’s: een vóór de gebruiker en een rechts van diens gezicht. Dan nog is een tong in de wang moeilijk te herkennen. Er is immers weinig reliëf en textuurverschil voor en tijdens zo’n beweging."

Wat is het doel van je onderzoek?
"Uiteindelijk wil ik een hulpmiddel voor psychologen ontwikkelen. Tot op heden is dat niet gelukt; ik heb niet alle vierenveertig actie-eenheden herkend. Dat komt ook door de beperkingen van stilstaand beeld. Een voorbeeld is het verschil tussen met de ogen knipperen en ze dicht doen. Daarvoor heb je eigenlijk ook een beeld voor en een beeld na de beweging nodig. De studies naar emoties in het gelaat zijn gebaseerd op stilstaand beeld. Om menselijke emoties te bestuderen, moet je ook kijken naar tijd. Je moet de context bepalen. Dat geeft de nuance tussen een grap maken, naar tegenlicht kijken en boos zijn. De context in de tijd is bepalend."

En de mens/machine-interactie?
"Dat is ook een doel van mijn onderzoek. Om tot intelligente of perceptuele interfaces te komen, of ‘ubiquitous computing’ (alomtegenwoordig computergebruik – red.), wat voor etiket je er ook aan wilt hangen. Dat kan uiteindelijk ook een intelligente, computergestuurde omgeving opleveren, die bijvoorbeeld de luxaflex automatisch dichtdoet wanneer aan je gezicht te zien is dat je last hebt van tegenlicht."

Is het niet moeilijk werken doordat gezichten verschillend zijn?
"In wezen zijn alle gezichtsspieren hetzelfde, alleen de mate van beweging is per mens verschillend. Je moet ook altijd aan het begin van een sessie een standaardfoto maken, voor de basisuitdrukking. Het systeem begint mij nu, na lange tijd, een beetje te kennen. De extremen en gemiddelden van mijn gezichtsuitdrukking. Dat vereist wel ruim een jaar dagelijks gebruik ervan."

Beperkt de hoeveelheid data, de opslag en de verwerking daarvan, je onderzoek?
"Geenszins. Toen we begonnen in 1996 werkte ik op een 486 en nu zijn processoren de 2,4 GHz al voorbij. Het grootste probleem is hoe uitdrukkingen te herkennen. Die tong in de wang is nog altijd het allermoeilijkste. Je kunt dat wel iets beter in kaart brengen door met draadmodellen van gezichten en driedimensionale beelden te werken, maar dan moet je het nog altijd herkennen vanaf het fysieke gezicht. Dát blijft een probleem."

Denk je je doelen ooit te kunnen halen?
"Nee, ik ben hier voorgoed mee bezig. Als je herkenning bereikt en dat implementeert in een kamer, kun je het daarna uitbreiden naar het hele huis, de auto of zelfs de buurt en de stad. Dan krijg je te maken met schaalgrootte wat betreft tijd, toepassingen en aantallen mensen."< BR>