Lernout & Hauspie leek tijdens de dotcomhausse op een goudmijn te zitten met zijn taaltechnologie. De teloorgang van het ‘papieren’concern betekende echter ook de val van de vele bedrijfjes die het had opgeslokt. De technologie die onder L&H zo in de kijker stond, verdween naar de achtergrond. De ambities zijn nu flink bijgesteld. Taaltechnologie is een typische oem-markt.
Het kernprobleem rond taaltechnologie ligt in de bruikbaarheid ervan. Voor sommige mensen – gehandicapten bijvoorbeeld – is het dé oplossing. Op dat gebied wordt dan ook veel taaltechnologie toegepast. Het is echter ook daar moeilijk producten te ontwikkelen die voor iedereen goed werken. Blijkbaar – zo rapporteert Polderland Language & Speech – zijn de wensen en behoeften van gebruikers zo verschillend, dat het bijna onmogelijk is om taaltechnologie breed in te zetten.
Voor bedrijfstoepassingen in het algemeen denken taaltechnologen aan bijvoorbeeld tekstherkenning (ocr), dicteerfunctionaliteit en beveiliging. Herkenning van de spreker is een mooi voorbeeld van een beveiligingstoepassing waar L&H veel van verwachtte. Een half decennium later is er echter nog niet veel van terechtgekomen. Belangrijkste reden is de (geringe) betrouwbaarheid. Die ligt veel lager dan bijvoorbeeld een irisscan of een vingerafdruk. Toch tonen het bedrijfsleven en vooral leger en politie belangstelling voor deze toepassing. Stemherkenning kan namelijk plaatsvinden zonder dat de spreker het weet, bijvoorbeeld via de telefoon.
Specifieke markten
Veel taaltechnologie spitst zich toe op markten waar een beperkte woordenschat wordt gehanteerd. Dat resulteert in goed werkende dicteersystemen voor medische omgevingen en in advocatenstudies, of in systemen die de functies van een (dure) menselijke ‘operator’ overnemen, zoals het ‘voorlezen’ van een banksaldo of het met stem herhalen van een op de telefoon ingetoetste nummerreeks. Dicteersystemen en ocr (optische karakterherkenning) die gebaseerd zijn op taaltechnologie vinden we onder meer bij het vroegere ScanSoft (nu Nuance) dat een groot deel van de L&H-technologie in de eigen producten implementeerde. Verder zijn er de systemen die call centers moeten helpen automatiseren. Taaltechnologie kan daar een basisbehoefte invullen, zoals het doorschakelen van een klant naar de juiste medewerker. Dat zegt ook oprichter en senior vice president ontwikkeling en strategie van de Xerox PARC spin-off Inxight, Ian Hersey. Ook zijn onderneming nam nogal wat taaltechnologen over van L&H toen dat ten onder ging. Het is vandaag een van de marktleiders in taaltechnologie met ondersteuning voor dertig talen, inclusief Nederlands.
Hersey wijst erop dat vooral speech-to-text systemen hun weg vinden naar bedrijfstoepassingen. Ze zijn alleen wat minder zichtbaar. “Informatie-analyse is hiervan een goed voorbeeld. Vooral de overheid is daarin geinteresseerd, maar ook in call-centertoepassingen wordt taalgerelateerde informatie-analyse ingezet.” Het gaat echter verder, want met dezelfde basistechnologie kunnen ook video- clips, papieren documenten (OCR) en andere bronnen omgezet worden naar tekstweergave, zodat een analyse-motor als Inxights LinguistX Platform (LXP) ermee aan de slag kan. Inxight heeft voor dat doel een Software Development Kit (SDK) waar onder meer Oracle, Bertelsmann, Hewlett-Packard/Hummingbird, en Plumtree gebruik van maken om taalfunctionaliteit toe te voegen aan hun producten.
Niet dood
Ook linguïstische zoektechnologie zoals die door DMPartners werd ontwikkeld, is volgens Hersey niet dood. “Wij hebben daarvoor een eigen platform ontwikkeld, het LinguistX Platform, dat linguïstische concepten, diakritische tekens, et cetera, kan peuren uit tekstuele informatie.” Ook hier geldt dat het eindresultaat ingebed wordt in een ander systeem. ThingFinder SDK is dan weer een andere Inxight basistechnologie. Het extraheert entiteiten uit tekst, met behulp van linguïstische analyse. “Daardoor kun je de antwoorden vinden op ‘Wie, wat, waar, en wanneer’ in een langere tekst”, zegt Hersey. Een gewone zoek- en analysemotor slaagt niet in wat ThingFinder doet. Op statistische analyse gebaseerde producten zijn namelijk niet in staat het verschil te maken tussen verschillende betekenissen van eenzelfde woord.
Inxights technologie maakt het mogelijk automatisch informatie te verkrijgen over feiten. “Feitenextractie is het nieuwste van het nieuwste. Dit houdt in dat de analysemotor wordt losgelaten op een tekst waarin feitelijke informatie staat. De motor haalt er de feiten en de relaties ertussen er zelf uit”, legt Hersey uit. Zo kan in bijvoorbeeld een financieel rapport snel achterhaald worden of een bedrijf andere bedrijven heeft overgenomen, of de waarde van het aandeel is gestegen of niet, enzovoort. Volgens Hersey gebruikt de Amerikaanse overheid de technologie om vele tienduizenden e-mailberichten te controleren op bewegingen van terroristen en wapens.
Niet rooskleurig
Hersey gelooft niet meer in de ‘natuurlijke-taal-zoekmotor’. “Een goed voorbeeld van zo’n vraagbaaktechnologie is Ask Jeeves, maar die gebruikt wel vastliggende blauwdrukken en geen taaltechnologie. Ook bij klanten self-service langs het web wordt dit model vaak gebruikt. Het laat echter weinig flexibiliteit toe.”
Inxight gelooft dat de toekomst er voor de zuivere taaltechnologiebedrijven sowieso niet rooskleurig uitziet. Taaltechnologie is voor Hersey fundamenteel voor elke toepassing die met tekst werkt. “Je zult in de toekomst dan ook zien dat de grote zoekmachines en inhoudsleveranciers taaltechnologie gaan inzetten – kleinere bedrijven zullen wellicht gewoon worden overgenomen – terwijl een aantal zich slechts in nichemarkten zullen weten te handhaven.” Voor Inxight is hij in dat opzicht niet bang. “Van bedrijven die zelf niks met taaltechnologie hebben, hebben we niets te vrezen. We zien geen concurrentie voor ThingFinder of LXP, eenvoudigweg omdat andere bedrijven niet de middelen hebben om meer dan dertig talen te ondersteunen.”
Bovendien ontwikkelt Inxight technieken die op zichzelf kunnen staan als toepassingen voor informatie-analyse. Bloor Research rapporteerde begin dit jaar nog dat de TimeWall die met Inxights VizServer wordt meegeleverd een onmisbaar instrument voor is trendanalyse.
Hoe fantastisch dit product ook mag zijn, Hersey gelooft niet dat hij er ooit de miljarden die L&H met hun taaltechnologie voor ogen stonden, mee gaat verdienen: “Het is geen grote markt die op zichzelf kan bestaan, maar een pakket technologieën die in geen enkele tekstverwante toepassing misstaat. Taaltechnologie is een typische oem-markt. Misschien wordt het ooit strategisch belangrijk genoeg zodat grote leveranciers de ontwikkelaars ervan willen opslokken.”
Onzichtbare integratie
De meeste taaltechnologie is onzichtbaar geïntegreerd met andere systemen. Een klassieke integratie is die met documentbeheer zoals Documentum, FileNet en Lotus Notes. Daar zit veel functionaliteit onder de waterspiegel. Het Nederlandse Euroglot creëert bijvoorbeeld taaldatabases. Zulke databases bevatten woordenschatten voor een welbepaalde industrietak en kunnen geïntegreerd worden in database-oplossingen zoals Oracle. Polderland Language & Speech Technology ontwikkelt spellingcontrole en grammaticacontrole voor gebruik in elke toepassing, inbegrepen Office 2003. Polderland maakt ook de Oxford Spellchecker & Dictionary CD-rom, eveneens een product dat integreert met Office en dat de ingebouwde functionaliteit van Microsofts pakket ver overstijgt. Spelling- en grammaticacontrole blijken vandaag tot de meest zichtbare taaltechnologieën te horen.
Een goed voorbeeld daarvan is Textractor van TextKernel – een Nederlandse ontwikkelaar. Het programma is niet bedoeld als desktop-applicatie. TextKernel werkt vaak samen met CapGemini, waarbij Textractor dan het taaltechnologische onderdeel vormt van een groter geheel. Het is overigens een tekst-extractieproduct dat relevante tekstbrokjes in XML omzet. Het wordt vooral ingezet bij het analiseren van curriculum vitae’s. Een ander voorbeeld is Jump! van Corpora Software. Jump! lijkt wel een doorslag van de producten van het indertijd in Antwerpen gevestigde DMPartners. Deze dochteronderneming van L&H maakte een zoek- en samenvattingsmachine. DMP was overigens een van de weinige satellietbedrijfjes van L&H dat een echt product kon voorleggen, zij het dat het nut ervan zich beperkte tot de markt van kranten- en tijdschriftenuitgevers.
Lernout & Hauspie & DMpartners
Het is nog nog geen zes jaar geleden dat Lernout & Hauspie van zijn voetstuk viel. Het zo geroemde miljardenbedrijf in West-Vlaanderen bleek te overleven op boekhoudkundige trucs. De vele satellietbedrijven waren vooral bedoeld om met cijfers te schuiven. Verkocht werd er bijna niks. Door het vele geschreeuw werd de onderneming wel een wereldwijd begrip. Het lokte zelfs de aandacht en het geld van Bill Gates. De vele satellietbedrijfjes moesten de taaltechnologie verder ontwikkelen in kennisbeheer. Zij bleken vaak echter alleen een facade voor boekhoudkundige ingrepen die geen genade vonden in de ogen van de Amerikaanse beurswaakhond SEC. Ook DMPartners was zo’n satelliet. Deze Belgische spin off ging kort na L&H ook roemloos en stuurloos ten onder. Het product zou door een nieuwe eigenaar verder ontwikkeld worden. Deze ‘koper’ had echter van technologie geen kaas gegeten en heeft het bedrijfje nooit meer op de goede weg kunnen krijgen. Hoe het DMP product zich verder heeft ontwikkeld of waar het is gebleven, schijnt niemand te weten.