Data-profiling tools
Rick van der LansMet ons allen hebben we op deze planeet al voor miljarden euro's aan datawarehouse-projecten uitgegeven. Sommige projecten slaagden, andere waren minder succesvol. Een van de bekende 'showstoppers', zoals de Amerikanen dat zo mooi kunnen zeggen, is de aanwezigheid van vervuilde gegevens in productiesystemen.
Het heeft weinig zin om een datawarehouse te bouwen als de aangeleverde gegevens zwaar vervuild zijn. Rapporten creëren die er mooi uitzien, maar waarvan de gegevens onbetrouwbaar zijn, heeft niet veel zin. Het kan zelfs gevaarlijk zijn voor de bedrijfsvoering.De hoeveelheid vervuilde gegevens in productiesystemen is bij sommige organisaties groot. Zeker gegevens die ooit met de hand zijn ingetikt. Inconsistente waarden, inconsistente coderingen, foutief gespelde namen, onmogelijke waarden, het zijn allemaal veel voorkomende vormen van vervuilde gegevens. En dan hebben we het we nog niet eens over de vervuilde gegevens die we niet eens als vervuild kunnen identificeren.
Sommige organisaties hebben dit probleem onderkend en, belangrijker nog, hebben zich de waarde van schone gegevens gerealiseerd. In dat geval wordt er budget vrijgemaakt om die gegevens handmatig of met ondersteuning van software op te schonen. Maar het gaat slechts om een handjevol organisaties. De rest worstelt met dit probleem en heeft geen structurele oplossing.
Een categorie softwareproducten die we kunnen gebruiken voor het opschonen van gegevens is het data-profiling tool. Een data-profiling tool bestudeert de gegevens en geeft aan waar zij denkt dat er iets niet klopt. Hiervoor is geen metadata nodig. Dus het kan ook platte bestanden analyseren die ooit met talen als Cobol zijn aangemaakt.
Data-profiling tools bekijken bijvoorbeeld welke kolommen in een bestand of tabel potentiële primaire sleutels zijn. Ze kunnen bestuderen of de aangegeven primaire sleutel wel degelijk unieke waarden bevat, aan welke syntactische patronen de waarde van een kolom voldoet, welke relaties er verstopt zitten in bestaande tabellen en tussen tabellen, en wat de distributie van waarden in een kolom is. In feite geeft een data-profiling tool een objectief beeld van de toestand van de gegevens. Het helpt een analist gegevens op te sporen die waarschijnlijk niet kloppen.
Let wel, het tool repareert de gegevens niet. Het beperkt zich tot het signaleren van mogelijk vervuilde gegevens. Het blijft de taak en de verantwoordelijkheid van de analist om actie te ondernemen.
Het aantal commercieel beschikbare data-profiling tools groeit gestaag. Momenteel kennen we Ascential Profile Stage, Avellino Discovery, Evoke Axio, First Logic IQ Insight en Mosaic Imperative Profiler.
Data-profiling tools vervangen dus niet de zogenaamde 'data-cleaning tools', zoals die van ETI, Human Inference en Trillium. Grofweg zijn er twee grote verschillen. Ten eerste repareren data-cleaning tools - in tegenstelling tot data-profiling tools - wel degelijk de gegevens. Verder werken data-cleaning tools het best op gegevens die bestaan uit namen en codes. Data-profiling tools werken op allerlei soorten gegevens, zelfs de meest inhumane verzamelingen bytes.
Werkt een data-profiling tool alleen als er een datawarehouse gebouwd is? Nee, een data-profiling tool is nuttig voor elke verzameling gegevens die geanalyseerd moet worden. Dus ook als je slechts wilt kijken naar de kwaliteit van de gegevens in jouw productiesystemen, kunnen ze hun waarde hebben.
Kennen data-profiling tools geen zwakke punten? Uiteraard wel. De prijs van deze producten ligt veel te hoog. De meeste zouden een factor tien goedkoper moeten zijn. De prijs staat niet in verhouding tot de hoeveelheid en complexiteit van de software. Ook zijn enkele van de leveranciers nog erg klein. Investeren hierin houdt dan altijd een risico in.
Afgezien van deze nadelen geldt dat je jezelf tekort doet als je gegevenskwaliteit hoog in het vaandel hebt staan, maar nog nooit naar een data-profiling tool hebt gekeken. Elke organisatie hoort een strategie te hebben om de gegevenskwaliteit te waarborgen. En een data-profiling tool hoort in de gereedschapkist te zitten van diegenen die voor de gegevenskwaliteit verantwoordelijk zijn.< BR>
Rick F. van der Lans is onafhankelijk adviseur, een internationaal bekend spreker en auteur van diverse boeken, tevens gespecialiseerd in softwareontwikkeling, datawarehousing en internet.
10-02 Van Vliet: Zonder internet geen welvaart
06-02 De kijk van Van Eijk: Sleutels weg
01-02 Spoelstra spreekt: Het is helemaal geen crisis
27-01 Van Vliet: Geen e-bank, geen bonus!
23-01 De kijk van Van Eijk: Technologie is een risico
18-01 Spoelstra spreekt: Flut hackers
15-01 Van Vliet: Uit het web
02-01 De kijk van Van Eijk: Onvermijdelijke vooruitgang
28-12 Spoelstra spreekt: Het verschil
23-12 Van Vliet: Politie.nl kent geen cybercrime
10-02 Tester Four Oaks in Israëlische handen
10-02 Nieuwe software brengt Vitens in problemen
08-02 Nokia verplaatst smartphoneproductie naar India
08-02 'ICT-afdeling is te traag voor ontwikkeling apps'
06-02 Banometer: Topstart vacaturemarkt krijgt vervolg
06-02 Duitse PMCS.helpLine neemt Leidse MCH+ over
03-02 Siemens PLM Software introduceert Jack 7.1
03-02 Itemis betreedt Nederlandse markt via Warmer IT
01-02 Microsoft-partner Asapnet zet IT-University op
01-02 Kwaliteitscontroleur is nog geen testprofessional
|
|
Gemeenten en ICT besparingen
Sommige gemeenten wijzigen hun autonome ICT omgeving in een samenwerkingsverband met als doel het verlagen van ICT......

