Over welke vaardigheden dient een ‘data miner’ eigenlijk te beschikken? Kort samengevat moet een ‘data-mijnwerker’ antwoord kunnen geven op vragen als: "welke gegevens zou je gebruiken en op welke manier" en "hoe kunnen we deze gegevens verwerven en samenvoegen tot een analyseerbaar bestand"? Dit lijken louter ’technische’ competenties, maar er komt meer om de hoek kijken, meent Wim van Nieuwenhuysen.
Een ‘data miner’ of data-mijnwerker moet in staat zijn een beleidsprobleem te vertalen naar een ‘onderzoekbaar’ probleem. Hiermee wordt afgebakend wat men waarom wil onderzoeken. In veel publicaties wordt de illusie gewekt dat deze taak automatisch kan worden uitgevoerd door ‘data mining’-systemen.
Was het maar zo gemakkelijk dat een softwarepakket op basis van de (beperkt) voorhanden zijnde gegevens definieert welke problemen en kansen uw organisatie heeft. Het definiëren van een ‘onderzoekbaar’ probleem blijft een creatief proces waarbij vooral inzicht en ervaring een belangrijke rol spelen. De grote kracht ligt daarbij in de beperking en een juiste afbakening en classificatie van het probleem. Dit veronderstelt de nodige achtergrondkennis van de organisatie en de processen die daarbinnen plaatsvinden. Systemen zullen ons op dit punt vaak in de steek laten.
Wanneer het eenmaal duidelijk is wat men waarom wil onderzoeken, dan kan de data-mijnwerker inventariseren welke gegevens noodzakelijk zijn om de vragen te beantwoorden. Zakelijke gegevens met betrekking tot marketing, transacties, contacten, producten, onderzoek en verkoopvraag bevinden zich overal in de organisatie in databases, losse bestanden, formulieren, memo’s, of in de hoofden van de medewerkers zelf. Een van de eerste taken zal daarom zijn het verzamelen van de benodigde gegevens (in de juiste hoeveelheid en samenstelling). De aanpak om de gegevensselectie aan de software over te laten kan tot het generaliseren van toevalligheden leiden. Tevens bestaat het gevaar dat verbanden waarvoor toevallig geen gegevens voorhanden zijn (onterecht) buiten beschouwing worden gelaten.
Geduld en analyse
Heeft de data-mijnwerker eenmaal de gegevens samengevoegd tot een werkbestand, dan dienen de gegevens nog te worden gecontroleerd, getransformeerd en bewerkt. Denk aan dubbele records, verouderde gegevens, afwijkende codes en labels en ontbrekende waarden. Alles moet worden gecheckt en opgeschoond. Vervolgens is het tijd voor het uitvoeren van aanvullende berekeningen en het toevoegen van nieuwe variabelen. Inzicht is hierbij noodzakelijk en het zal blijken dat geduld een schone zaak is.
Is het analysebestand klaar, dan kunnen er de verschillende analytische technieken en programma’s op worden losgelaten. Het uitvoeren van analyses veronderstelt kennis en inzicht in het gebruik en de beperkingen van statistische en andere procedures. Daarbij is niet zozeer het meetniveau van de variabelen doorslaggevend, als wel vooral de inhoud van de beleidsvraag zelf.
Bij veel data-mijnwerkers bestaat een groeiende interesse in nieuwe analytische technieken (zoals RFM en Classification Trees) voor het zakelijke ‘data mining’ of ‘data delven’. Maar we mogen daarbij niet vergeten dat bij het gros van dit soort toepassingen nog steeds gebruik moet worden gemaakt van traditionele Exploratieve Data Analyse (EDA) technieken. De data-mijnwerker moet niet alleen kunnen werken met eenvoudige ‘basistechnieken’ (zoals grafieken, frequentie- en kruistabellen), maar ook met meer geavanceerde technieken die zijn bedoeld om patronen in multivariate data sets te identificeren.
Bruikbare voorspellingen
Een kenmerkend verschil tussen ‘data delven’ en de traditionele EDA-technieken is dat het delven meer gericht is op de toepassing van de gevonden kennis dan op het verkennen van de diepere oorzaken van het fenomeen. Het hoofddoel van ‘data mining’ is veelal niet een beschrijving van alle mogelijke relaties en wederzijdse afhankelijkheden. Integendeel, de nadruk ligt op het produceren van een oplossing waarmee bruikbare voorspellingen kunnen worden gedaan. Daarbij worden niet alleen de traditionele exploratieve technieken (EDA) gebruikt, maar ook technieken als neurale netwerken. Hiermee kan men betrouwbare voorspellingen doen zonder precies duidelijk te maken hoe men deze voorspellingen afleidt uit de onderliggende gegevensverbanden. Een echte ‘black box’ dus. Van de data-mijnwerker wordt hierbij wel verwacht dat hij weet wat hij aan het doen is.
In de rapportage dient de data-mijnwerker een antwoord te geven op de eerder geformuleerde vragen (aangepast aan het niveau van de lezer). Alvorens bevindingen te rapporteren, dienen de resultaten van de analyses te worden teruggekoppeld naar de originele vraagstelling. Indien het resultaat onbevredigend is, nieuwe inzichten verschaft, of wanneer uit de analyse blijkt dat de originele vraagstelling moet worden bijgesteld, zal vaak opnieuw moeten worden begonnen. ‘Data delven’ blijkt meestal een langdurig iteratief proces te zijn, een zaak van hard werken! De ‘druk-op-de-knop’ systemen, waar veel managers naar op zoek zijn, zullen nog wel een tijd op zich laten wachten.
Dit delven blijkt een zaak van vallen en opstaan. Dat hierbij een groot beroep op de creativiteit van de analist wordt gedaan zal niemand verbazen. Het is een interactief en iteratief proces waarbij het grootste deel van de werkzaamheden bestaat uit nadenken. Geluk speelt soms een belangrijke rol. Goede software kan een helpende hand bieden, maar vormt op dit moment zeker nog geen alternatief voor de menselijke (materie) deskundige.
Organisatorisch inzicht
Over welke vaardigheden hebben we het nu gehad? De data-mijnwerker heeft inzicht en kennis van gegevensverzameling en -manipulatie en het gebruik van de juiste analytische technieken voor het beantwoorden van veelal onduidelijk afgebakende beleidsvragen. Daarbij speelt organisatorisch inzicht een belangrijke rol. Daarnaast moet een data-mijnwerker bereid zijn om hard te werken.
Het is maar de vraag of de benodigde vaardigheden via het onderwijs (kunnen) worden aangeleerd. In het traditionele onderwijs vindt men nog steeds een harde kern van docenten die menen dat studenten alle gebruikte formules moeten kunnen narekenen (met een calculator).
Het gaat echter niet om de berekeningswijze (dat doet de software tegenwoordig wel voor u), maar om de keuze en toepassing ervan, zodat een antwoord kan worden gegeven op vragen die in de organisatie spelen.
Wim van Nieuwenhuysen
docent Hanze Hogeschool Groningen
en directeur Statsoft Benelux