Stel je voor: Je hebt heel veel data en je wilt hier aan betekenis geven, maar er is geen structuur in de gegevens verborgen. Wat doe je dan? Enige tijd geleden, 21 mei, was ik bij Bill Inmon en hij introduceerde Textual ETL. En wat hij met zijn team heeft uitgevonden kan wel eens the next ‘big’ thing zijn. Iedereen is nog aan het bijkomen van het ‘instant’ succes van big data en Hadoop en zo, maar hij heeft het echt begrepen.
Nu denk je misschien, Inmon, die is toch mega oud en achterhaalt op bi-gebied. Eerlijk gezegd ging ik ook wat sceptisch, maar ja, de kans om de grondlegger van mijn vak ‘live’ te ontmoeten kon ik toch niet weerstaan. Daarbij opgeteld dat het was georganiseerd door BI-Podium, moest het toch wel leuk worden. Wat schetst mijn verbazing: zes mensen en Bill dus. Dat had ik niet verwacht. Zat ik gewoon naast Bill Inmon, voor een hele dag.
Slimme man
En wat voor een dag. Hij mag dan wel oud zijn, maar wat een slimme man is dat zeg. Respect. En wat hij met zijn team heeft uitgevonden kan wel eens ‘the next ‘big’ thing zijn. Terwijl iedereen nog aan het bijkomen is van het ‘instant’ succes van big data en Hadoop en zo, heeft hij het echt begrepen.
Want, even in een notedop, wat doet bijvoorbeeld Hadoop in ‘mensen taal’? Het scant data, veel data, en vindt hierin structuren die niet expliciet zijn. Deze worden op de rest van de data losgelaten en hierdoor kan een enorme dataset toch gelezen worden alsof het een soort database is. Natuurlijk is het technisch allemaal veel ingewikkelder, maar ja, dat legt niet zo snel en makkelijk uit, dus ik laat het hier even bij.
Het nadeel hiervan is dat je vooral kunt kijken naar zogenaamde procesdata. Dus logfiles, errorfiles en zo. Want daarin zijn die ‘verborgen’ structuren te vinden. Mooi kunstje natuurlijk, maar wat is de business value (wat verdienen we eraan) als we dat kunnen?
Wat doet Inmon dan met zijn team, waar ik zo blij van werd vraag je je misschien af? Het was maar één dag, dus ik ben nog geen expert, maar hij kan zoeken en herkennen in data zonder ‘verborgen structuren’ door gebruik te maken van taxonomieën.
Even opfrissen: Een taxonomie of taxinomie is de wetenschap van het indelen van individuen of objecten in groepen.
Coderen
Wat hij doet is, ook weer in een notendop, het volgende: Hij gebruikt de methode ‘coderen’ , die we nog kennen uit de ouderwetse onderzoeksmethoden. Waarbij een interview/verslag werd gecodeerd. Dus woorden en zinnen die hetzelfde betekende, maar anders waren geschreven, kregen dezelfde waarde.
Inmon codeert alleen niet met de hand, maar met een bij het bedrijf passende taxonomie. Die koopt hij gewoon bij een bedrijf dat hierin is gespecialiseerd.
Dus van te voren bepaald welke woorden hetzelfde betekenen, passend in het bedrijf of de branche van het bedrijf. Hij heeft ook een tool gemaakt waarmee specifieke zaken herkent kunnen worden.
Voorbeeld: In de tekst staat een aap, hierbij wordt aangetekend dat dit hoort tot de groep dier. En een schaap, ook hierbij komt dier en bij een paard en komt ook dier. Verder staat ook nog in de taxonomie dat de aap een wild dier is en een paard en schaap een boerderijdier. Vervolgens kun je de tool alle voorkomende dieren laten vinden of tellen of laten vinden of dieren in combinatie met een andere term te vinden zijn.
Zie je de mogelijkheden al? Een verzekeringsmaatschappij heeft in de taxonomie staan dat een reeks van tien aangesloten cijfers een polisnummer is, en als in een email het woord claim hierbij voorkomt, dan moet er een signaal komen. Maar ook als er schade, advocaat, rechtszaak et cetera staat. Nu kan tijdens de vakantieperiode alle mail gescand worden op de aangegeven combinaties, zodat er niet meer te laat op belangrijke mails wordt gereageerd als er veel mensen op vakantie zijn, waardoor proceskosten worden voorkomen. Begint het te dagen?
Wat hij doet is, aan grote hoeveelheden ongestructureerde data, met behulp van taxonomieën betekenis geven. Dat heeft volgens mij een enorm business potentieel.
Inmon’s boek hierover komt volgend jaar mei ongeveer uit. Ik heb het concept van zijn boek alvast gekregen, en ik ben druk aan het lezen, want na deze dag wil ik van de hoed en de rand weten. Als docent zijn vakanties ook voor research natuurlijk. En ik ga hier zeker lessen over maken, want volgens mij wordt dit ‘the next ‘big’ thing’. Wat denk jij?
Interessant. Maar is dit niet een beetje oude wijn in nieuwe zakken? Waarbij de oude wijn in dit geval Text Mining heet?
Deel enthousiasme van auteur niet wat aan de vergezochte voorbeelden kan liggen of kern van het verhaal en krijg hierdoor de indruk dat paard weer eens achter de wagen gespannen wordt. Nu is deze wijze van ordening al eeuwen oud en wordt al heel lang gebruikt in de natuurwetenschap, Darwin is er zelfs bekend mee geworden.
Dat ongestructureerde data lastiger te ordenen is lijkt mij geen nieuws en dat zoektermen hierbij kunnen helpen ook niet hoewel er nog uitdagingen liggen in de semantiek. Welke woorden hetzelfde betekenen is in e-mail nogal veranderlijk, tel daarbij op dat in deze communicatie ook steeds meer gebruik gemaakt wordt van afkortingen en ik vraag me af wat de uitval is van dit soort systemen.
Hierdoor lijkt Textual ETL me een grote mate inefficiëntie te hebben, een extra verwerkingsslag die voorkomen kan worden als niet telkens geprobeerd wordt om de geit en de kool te sparen. Proceskosten als gevolg van een slechte planning oplossen met deze ‘next big thing’ is naar mijn opinie gewoon monkey business, het zoeken naar problemen om deze vervolgens overal te vinden en verkeerd op te lossen.
Blijkbaar hebben recruiters zo’n tool nog niet, als ik mijn mailbox bekijk. of juist wel, maar heeft tot nu toe niemand het echt begrepen ?
Toch kan iedere student zo’n algoritme verzinnen.
Broodje schaap artikel ?
Eerst maar eens bijkomen van het succes van big data.
Ik deel het enthousiasme van de auteur over de ontwikkeling wel, vraag me alleen af wat er nu eigenlijk uitgevonden is. Deze methodiek is volgens mij niet zo nieuw. Sterker nog wat bijvoorbeeld IBM met Watson heeft gedaan op basis van onder andere het Apache UIMA (Unstructured Information Management Architecture) framework heeft alles te maken met verregaande structuurherkenning in ongestructureerde informatie op basis van patronen en semantiek. En ja, coderen gebeurt daar ook in de vorm van zogenaamde annotators. Daar kun je dan bijvoorbeeld Jeopardy! mee winnen of een commercieel product van maken als IBM Content Analytics. En IBM is zeker niet de enige in deze wereld.
Kortom, oude man of jonge vrouw. Bijblijven in een veranderende wereld blijkt lastig voor ons allemaal.