Kennisbeheer door het vergelijken van unieke representaties van documenten

Geen woorden maar concepten

Kennisbeheer komt in de praktijk vaak neer op het gebruik van een min of meer intelligent zoeksysteem. Aan de hand van trefwoorden kunnen daarmee documenten worden gevonden, waarvan de inhoud op dat moment relevant of gewenst is. Maar is dat voldoende om informatie optimaal te ontsluiten en te veranderen in kennis? Bij Collexis meent men van niet. Het gaat niet zozeer om de woorden in een document maar om de concepten erachter, zo stelt dit Nederlandse softwarehuis. Dankzij hun 'fingerprints' van documenten krijgt kennisbeheer een nieuwe betekenis, ontdekte Robert Hoeffnagel.

Zon Mw bevindt zich op het kruispunt van beleid, onderzoek en praktijk in de wereld van de gezondheidszorg. Deze in Den Haag gevestigde organisatie is ontstaan uit de integratie van wat voorheen Zorgonderzoek Nederland (ZON) heette en de activiteiten op het gebied van de medische wetenschappen van de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO-MW). De doelstelling van Zon Mw laat zich in grote lijnen omschrijven als het bevorderen van het samenspel en de wisselwerking tussen praktijk, onderzoek en beleid. Dat gebeurt bijvoorbeeld door kennis uit onderzoek beschikbaar te stellen aan beleidsmakers en praktijkdeskundigen, en omgekeerd. Bovendien probeert men onderzoek zo goed mogelijk af te stemmen op beleidsvragen en praktijkervaringen.
Dit doet men onder andere via een reeks onderzoeksprogramma's en het subsidiëren van projecten op het gebied van gezondheid, preventie en zorg. Daarbij kan het gaan om fundamentele research, maar ook om projecten die juist heel praktische onderwerpen behandelen. Het aantal projecten dat Zon Mw gemiddeld in beheer heeft, ligt al gauw op zo'n zevenhonderd. Het aantal aanvragen voor subsidie ligt echter vele malen hoger. Daardoor ontstaan tal van praktische vragen en problemen. Bijvoorbeeld: hoe worden nieuwe voorstellen voor projecten beoordeeld? Meer concreet: hoe wordt vastgesteld of een voorstel niet te veel overlap of doublure vertoont met andere projecten? Bovendien: hoe kan over al die projecten worden gecommuniceerd?

Kenmerken vastleggen

Wat Zon Mw in feite nodig had, was een mechanisme om de belangrijkste kenmerken van projecten vast te leggen. Deze zouden vervolgens kunnen dienen als basis voor de communicatie met het grote publiek. De beschrijving zou immers de zoektermen opleveren aan de hand waarvan geïnteresseerde bezoekers van de website van Zon Mw een project kunnen vinden. Bovendien kan een dergelijke projectbeschrijving gebruikt worden bij het beoordelen van voorstellen en subsidieaanvragen voor nieuwe projecten.
Dat proces van beschrijven lijkt in eerste instantie wellicht niet zo'n ingewikkelde klus, maar dat is het toch wel. Het is namelijk allerminst voldoende om een project enkel en alleen te beschrijven en een aantal kenmerken op te sommen. Er spelen veel meer factoren mee. Bijvoorbeeld de specifieke invalshoek van het onderzoek, de tijdsperiode, betrokken partijen of onderzoekers, eerdere research waarop men het onderzoek baseert, noem maar op.
"We maken voor het beschrijven en ontsluiten van projecten inmiddels gebruikt van een technologie die 'fingerprinting' wordt genoemd", vertelt Raoul Buiter, webmaster van Zon Mw. Deze manier van werken is ontwikkeld door het in Geldermalsen gevestigde softwarebedrijf Collexis. De verwijzing naar de kreet 'vingerafdruk' kan bij de aanpak van dit bedrijf vrij letterlijk worden genomen. Net als een afdruk van de vingertop uniek is voor ieder individu, wordt ook bij het 'fingerprinten' een unieke representatie gemaakt van een document.
"Met deze programmatuur kan een fingerprint worden gemaakt van ieder stukje informatie", vertelt Peter van Praag, 'chief executive officer' van Collexis. "Die informatie kan een Word-bestand zijn, een emailtje, de tekst in een Powerpoint-presentatie, een webpagina, een projectbeschrijving, de cv van een medewerker, noem maar op. De resulterende fingerprint is een klein bestandje, dat de basis vormt voor het zoeken naar en vergelijken van documenten en informatie."
Dat biedt interessante mogelijkheden, stelt Van Praag. "Ten eerste kan hierdoor gewerkt worden met een unieke beschrijving van de inhoud en de strekking van het document. Bovendien is het bij een zoekactie niet meer nodig de documenten in hun geheel te doorlopen. We werken namelijk met een methode waarbij ook van de vraag van de gebruiker - de zoekopdracht - eerst een fingerprint wordt gemaakt. Zoeken is dus vooral een kwestie van het vergelijken van fingerprints. Hierdoor is het mogelijk om in korte tijd zeer grote aantal documenten - of liever gezegd: fingerprints - te doorzoeken. Om een indruk te geven: een half miljoen fingerprints kunnen hierdoor in een tijdsspanne van circa 20 milliseconden worden vergeleken met de fingerprint die de vraag van de gebruiker representeert."

Componenten

Hoe gaat deze manier van werken nu precies in zijn werk? Het hart van de aanpak wordt gevormd door de zogeheten 'Collexis Engine'. Deze kan via een webinterface worden gekoppeld aan een intranet, een 'corporate portal' of een applicatie. De engine bestaat uit vijf componenten: de abstractiecomponent, de selectiecomponent, de 'match'-component, de relatiecomponent en de categorisatiecomponent.
De abstractiecomponent wordt gebruikt voor het vervaardigen van de fingerprints. Dat kan een te ontsluiten document zijn, maar ook de vraagstelling van de gebruiker die op zoek is naar relevante informatie. Het maken van een fingerprint gebeurt door de woorden in een tekst te vergelijken met die in een thesaurus. Deze thesaurus is in dit geval een lijst met woorden en termen die specifiek zijn voor een bepaalde branche of sector. De woorden zijn in de vorm van een hiërarchisch overzicht bij elkaar gebracht en geven bovendien informatie over de semantische relaties tussen de kreten. Denk hierbij bijvoorbeeld aan termen die afgeleid zijn van andere woorden.
De combinatie van woorden en onderlinge relaties betekent dat een thesaurus dus eigenlijk een reeks van concepten bevat die relevant zijn in een specifieke branche. Hierbij wordt bovendien per concept aangegeven welk woord de voorkeur heeft om het concept aan te duiden, welke synoniemen voorhanden zijn, welke woorden een onderlinge relatie kennen en dergelijke.
Een fingerprint is in feite een overzicht van scores. Deze scores komen tot stand nadat eerst via een normalisatiemodule de in de tekst voorkomende woorden zijn ontleedt en teruggebracht tot hun basisvormen. Dit zijn verwerkingsslagen die uiteraard specifiek zijn voor een bepaalde taal. Is de tekst eenmaal genormaliseerd, dan wordt geteld. Welke woorden uit de bijbehorende thesaurus komen voor en hoe vaak? Welke zinsneden - denk aan meerdere woorden omvattend jargon of branchespecifieke uitdrukkingen - worden geteld? Tot welke concepten behoren deze termen en reeksen van woorden? En hoe relevant zijn die concepten binnen het document?
Dit levert scores op die vervolgens aan de hand van een weging resulteren een lijst met percentages. Dit scorelijstje is de fingerprint van het document. Doordat bij ieder document sprake is van een andere combinatie van woorden en andere wegingen, is daarmee dus ook een unieke representatie van dat document gemaakt.

Onafhankelijk van taal

Er wordt bij het vaststellen van een fingerprint dus een drie-stappen-proces gevolgd. Allereerst wordt het document doorzocht. Dit leidt tot een reeks van relevante woorden en concepten, ofwel de tweede stap. Vervolgens wordt als derde stap aan ieder concept een relatief gewicht toegekend. Dit laatste levert de fingerprint op.
Het mag duidelijk zijn dat deze manier van werken nogal afwijkt van technieken als natuurlijke taal-verwerking, terwijl ook slechts in zeer beperkte mate gebruik wordt gemaakt van grammaticale regels. In feite vormt de module voor het normaliseren van het document het enige element in deze methode dat afhankelijk is van de taal waarin de tekst is opgesteld. Van Praag: "Doordat de normaliseringsmodule als een plug-in in de abstractiecomponent kan worden gestoken, kunnen we dus feitelijk stellen dat die component zelf geheel onafhankelijk is van de gebruikte taal."
Interessant is dat hierdoor meerdere talen door elkaar heen kunnen worden gebruikt.Van Praag: "Het is mogelijk dat bijvoorbeeld een Engelse en een Franstalige versie van de 'abstraction component' tegelijkertijd op één computersysteem zijn geïnstalleerd. Dat maakt het mogelijk dat van een verzameling documenten zowel Franse als Engelse fingerprints worden gemaakt, die gezamenlijk worden vastgelegd. En dat maakt het weer mogelijk om bij het zoeken de gebruiker desgewenst een Engelstalig dan wel een Franstalig document aan te bieden."
Het zal duidelijk zijn dat het voor het maken van een zinvolle fingerprint van cruciaal belang is dat er een zo volledig mogelijke thesaurus beschikbaar is. Collexis beschikt zelf over een reeks van thesauri die een aantal belangrijke kennisdomeinen afdekken. Het gaat dan bijvoorbeeld om Asis, ACM, Foldoc en Noag-I voor de ict-branche, 'Unified Medical Language System' voor de medische wereld en Eurovoc voor wetgeving. Daarnaast komen voor steeds meer branches en sectoren gestandaardiseerde thesauri op de markt, stelt Van Praag vast. Zon Mw maakt bijvoorbeeld gebruik van de Nederlandstalige thesaurus 'zorg en welzijn' van het Nederlands Instituut voor Zorg en Welzijn.
Ook is het mogelijk om aan een fingerprint van een document nog extra informatie mee te geven. Deze metadata kunnen in het geval van wetenschappelijke publicaties bijvoorbeeld bestaan uit de naam van het tijdschrift, de datum van de publicatie, de sectie in het blad waarin het artikel is geplaatst en dergelijke. Die informatie kan vervolgens worden gebruikt om het zoekproces verder te verfijnen. Het biedt immers context die bij het zoeken en vergelijken kan worden gebruikt. Bijvoorbeeld door een zoekactie te beperken tot een bepaalde reeks van publicatiedata. Om dit te kunnen realiseren, is de selectiecomponent in de Collexis Engine voorzien van een eigen database voor het vastleggen van dit soort extra meta-informatie.

Fingerprint van vraagstelling

Niet alleen de documenten die met behulp van deze programmatuur moeten worden ontsloten, worden voorzien van een fingerprint. Hetzelfde geldt voor de vraag- of zoektermen. Deze vingerafdruk kan vervolgens worden vergeleken met de representaties van de vastgelegde documenten. Hierbij speelt zoals gezegd de eventueel beschikbare contextuele informatie een belangrijke rol.
Daarbij moet niet vergeten worden dat er sprake kan zijn van meerdere soorten van contextuele informatie. Een eerste heeft te maken met de locatie van een concept in de hiërarchie van de thesaurus. Dat wil zeggen dat een woord dat is afgeleid van een andere woord, dus eveneens in het proces van 'matchen' wordt meegenomen.
Maar dat is niet de enige contextuele info die relevant kan zijn. Het is ook belangrijk de invloed te onderkennen van de context die wordt afgeleid van de andere concepten die in de fingerprint zijn opgenomen. Van Praag hanteert als voorbeeld de kreet 'jaguar'. Dat woord kan leiden tot het concept waarbij de jaguar een dier is, maar het woord kan ook aanduiden dat het om een bepaald merk auto gaat. Wanneer nu ook het concept 'dierentuin' in de fingerprint blijkt voor te komen, dan bepaalt dat dus dat in dit geval het dier het juiste concept voor 'jaguar' is. Op dezelfde manier zal een concept als 'rijden' resulteren in een keuze voor het concept van 'jaguar' als auto.
De match-component zal dit soort contextuele informatie gebruiken om die documenten te vinden die de grootste overeenkomst vertonen met de vraagstelling. Het is duidelijk dat een vraagstelling die meer context biedt, de match-component meer aanknopingspunten en mogelijkheden voor verfijning geeft.

Relaties en categorieën

De Collexis Engine telt nog twee componenten. De relatiecomponent is bedoeld voor het vastleggen van de relaties tussen fingerprints. Het gaat hierbij in feite om 'fingerprints van fingerprints', die bovendien op dynamische wijze kunnen worden gegeneerd. Zo'n relatie kan bijvoorbeeld zijn: alle documenten die door één auteur zijn opgesteld. Wanneer een aantal van dit soort auteursgebonden fingerprints bestaat, kunnen deze op hun beurt weer in een fingerprint bijeen worden gebracht die een gezamenlijk organisatie beschrijven. "Aan deze vorm van groeperen worden in principe geen beperkingen opgelegd", vertelt Van Praag. Het gaat hier dus om een hulpmiddel dat met name voor kennisbeheer interessant kan zijn.
De laatste component is de categorisatiecomponent. Van Praag: "Een belangrijke eigenschap van Collexis is volgens ons dat documenten niet vooraf in categorieën ingedeeld hoeven te worden. Toch zijn er situaties waarin de gebruikers liever wél over dit soort indelingen beschikken. Categorieën worden normaal vaak samengesteld aan de hand van Boleaanse expressies. Dat doen wij echter niet. Het gebruik van fingerprints maakt een soort 'fuzzy' vorm van categoriseren mogelijk."

De praktijk

Hoe werkt deze aanpak nu in de praktijk? "Bij Zon Mw worden alle projecten die we onderhanden hebben, maar ook oudere projecten met behulp van de abstractiecomponent voorzien van een unieke representatie", vertelt Raoul Buiter. "Stel nu dat er een aanvraag binnenkomt voor subsidiëring binnen één van de programma's die wij beheren. Van de omschrijving en andere informatie van dit project wordt dan eveneens een fingerprint gemaakt. Deze wordt vervolgens vergeleken met de fingerprints die we reeds in de database met projecten hebben zitten. Hierdoor komt een overzicht beschikbaar van projecten die op een of andere manier een relatie met de nieuwe aanvraag hebben."
Aan de hand van dit overzicht kan een eerste beoordeling worden gegeven in hoeverre een project wel of niet interessant of relevant is. "Het is een prima manier om eventuele overlap vast te stellen en bijvoorbeeld inzicht te krijgen in andere projecten die lopen of die in het verleden zijn uitgevoerd en die raakvlakken met de nieuwe aanvraag vertonen. Hierdoor ontstaat een goed beeld van de subsidieaanvraag en die projecten waarmee we reeds werken of gewerkt hebben."
De aanleiding voor Zon Mw om naar dit soort technologie te kijken, was destijds gelegen in het feit dat men beter wilde communiceren over projecten. "We hebben hier vele honderden projecten onderhanden en willen daarover kunnen communiceren. Simpelweg een statische webpagina per project creëren is natuurlijk niet zo moeilijk, maar dat is bij zulke aantallen nauwelijks te doen. Zeker niet wanneer je naast algemene gegevens als een projectdoel, NAW-gegevens en budgetten ook nog eens de status van een project wilt kunnen laten zien."

Gevalideerd zoeken

Erg belangrijk voor Zon Mw, zo vertelt Buiter, was niet alleen het feit dat er bij gebruik van Collexis met contextgevoelige informatie kan worden gewerkt, maar vooral ook dat gevalideerde zoekmethoden worden toegepast. "Een bekend voorbeeld is natuurlijk dat je zoekt naar documenten over malaria en vervolgens ook informatie tegenkomt waarin bij wijze van spreken letterlijk staat gemeld: 'dit document gaat niet over malaria'. Een normale zoekmachine ziet dat als een relevant document, terwijl je dat bestand dus overduidelijk niet wilt hebben. Met Collexis zal dat document niet als relevant worden gezien."
Het feit dat het toonaangevende natuurwetenschappelijke tijdschrift 'Nature' de eigen publicaties en artikelen via de technologie van Collexis ontsluit, versterkte de belangstelling van Zon Mw. Buiter: "Net als Nature zitten wij in de wereld van onderzoek en research. Ook Collexis bleek uit die hoek afkomstig."
De oorspronkelijke technologie is ontwikkeld via een project dat 'Shared' heet, wat staat voor 'Scientists for Health and Research for Development' (http://www.shared.de). Dit project werd destijds gefinancierd door het NWO en een Duitse overheidsorganisatie. Collexis maakt nu gebruik van deze technologie en heeft met de oorspronkelijke financiers afspraken gemaakt over het terug laten vloeien van een deel van de omzet naar wetenschappelijk onderzoek.

Kennisbeheer

Overigens is de Collexis-technologie niet alleen interessant voor de wereld van onderzoek en research, stelt Van Praag vast. Een ander toepassingsgebied is bijvoorbeeld projectmanagement en 'human resource management'. "Een adviesbureau kan deze technologie gebruiken om projectteams samen te stellen. Door de cv's van adviseurs, hun rapporten, artikelen en dergelijke door middel van fingerprints vast te leggen, is het goed mogelijk om aan de hand van een fingerprint die de vraag van de klant representeert, de beste mensen voor een project bijeen te brengen."
Op dezelfde manier is het ook mogelijk om specialisaties van medewerkers in kaart te brengen en vervolgens te ontsluiten door vragen en personeelsgegevens via fingerprints te matchen. Ook kan de programmatuur gebruikt worden voor het beheren en onsluiten van een intranet, stelt Van Praag. Door alle op deze interne webomgeving beschikbare informatie vast te leggen en van een unieke representatie te voorzien, kan het zoeken naar relevante informatie eenvoudiger worden gemaakt.
Collexis is geen document-managementsysteem, benadrukt Van Praag, maar is primair gericht op kennisbeheer. "Deze programmatuur is niet bedoeld om documenten te ordenen of te categoriseren. Wel kan ze de kennis ontsluiten die de organisatie intern beschikbaar heeft. Dat kan doordat deze manier van werken het mogelijk maakt om relevante documenten boven water te krijgen. Minstens zo belangrijk is dat kan worden achterhaald wie de auteur daarvan is. Dus wanneer de gevonden documenten uiteindelijk toch geen oplossing voor het oorspronkelijke probleem blijken op te leveren, is het mogelijk om de betrokken deskundigen te vinden."


Robbert Hoeffnagel Freelance Medewerker

x

Om te kunnen beoordelen moet u ingelogd zijn:

Dit artikel delen:

Stuur dit artikel door

Uw naam ontbreekt
Uw e-mailadres ontbreekt
De naam van de ontvanger ontbreekt
Het e-mailadres van de ontvanger ontbreekt

×
×
article 2002-04-19T00:00:00.000Z Robbert Hoeffnagel
Wilt u dagelijks op de hoogte worden gehouden van het laatste ict-nieuws, achtergronden en opinie?
Abonneer uzelf op onze gratis nieuwsbrief.