Computable.nl
  • Thema’s
    • Carrière
    • Innovatie & Transformatie
    • Cloud & Infrastructuur
    • Data & AI
    • Governance & Privacy
    • Security & Awareness
    • Software & Development
    • Werkplek & Beheer
  • Sectoren
    • Channel
    • Financiële dienstverlening
    • Logistiek
    • Onderwijs
    • Overheid
    • Zorg
  • Awards
    • Overzicht
    • Nieuws
    • Winnaars
    • Partner worden
  • Vacatures
    • Vacatures bekijken
    • Vacatures plaatsen
  • Bedrijven
    • Profielen
    • Producten & Diensten
  • Kennisbank
  • Magazine
  • Nieuwsbrief

Data-profiling tools

26 februari 2004 - 23:004 minuten leestijdOpinieData & AI
Rick van der Lans
Rick van der Lans

Met ons allen hebben we op deze planeet al voor miljarden euro’s aan datawarehouse-projecten uitgegeven. Sommige projecten slaagden, andere waren minder succesvol. Een van de bekende ‘showstoppers’, zoals de Amerikanen dat zo mooi kunnen zeggen, is de aanwezigheid van vervuilde gegevens in productiesystemen.

Het heeft weinig zin om een datawarehouse te bouwen als de aangeleverde gegevens zwaar vervuild zijn. Rapporten creëren die er mooi uitzien, maar waarvan de gegevens onbetrouwbaar zijn, heeft niet veel zin. Het kan zelfs gevaarlijk zijn voor de bedrijfsvoering.
De hoeveelheid vervuilde gegevens in productiesystemen is bij sommige organisaties groot. Zeker gegevens die ooit met de hand zijn ingetikt. Inconsistente waarden, inconsistente coderingen, foutief gespelde namen, onmogelijke waarden, het zijn allemaal veel voorkomende vormen van vervuilde gegevens. En dan hebben we het we nog niet eens over de vervuilde gegevens die we niet eens als vervuild kunnen identificeren.
Sommige organisaties hebben dit probleem onderkend en, belangrijker nog, hebben zich de waarde van schone gegevens gerealiseerd. In dat geval wordt er budget vrijgemaakt om die gegevens handmatig of met ondersteuning van software op te schonen. Maar het gaat slechts om een handjevol organisaties. De rest worstelt met dit probleem en heeft geen structurele oplossing.
Een categorie softwareproducten die we kunnen gebruiken voor het opschonen van gegevens is het data-profiling tool. Een data-profiling tool bestudeert de gegevens en geeft aan waar zij denkt dat er iets niet klopt. Hiervoor is geen metadata nodig. Dus het kan ook platte bestanden analyseren die ooit met talen als Cobol zijn aangemaakt.
Data-profiling tools bekijken bijvoorbeeld welke kolommen in een bestand of tabel potentiële primaire sleutels zijn. Ze kunnen bestuderen of de aangegeven primaire sleutel wel degelijk unieke waarden bevat, aan welke syntactische patronen de waarde van een kolom voldoet, welke relaties er verstopt zitten in bestaande tabellen en tussen tabellen, en wat de distributie van waarden in een kolom is. In feite geeft een data-profiling tool een objectief beeld van de toestand van de gegevens. Het helpt een analist gegevens op te sporen die waarschijnlijk niet kloppen.
Let wel, het tool repareert de gegevens niet. Het beperkt zich tot het signaleren van mogelijk vervuilde gegevens. Het blijft de taak en de verantwoordelijkheid van de analist om actie te ondernemen.
Het aantal commercieel beschikbare data-profiling tools groeit gestaag. Momenteel kennen we Ascential Profile Stage, Avellino Discovery, Evoke Axio, First Logic IQ Insight en Mosaic Imperative Profiler.
Data-profiling tools vervangen dus niet de zogenaamde ‘data-cleaning tools’, zoals die van ETI, Human Inference en Trillium. Grofweg zijn er twee grote verschillen. Ten eerste repareren data-cleaning tools – in tegenstelling tot data-profiling tools – wel degelijk de gegevens. Verder werken data-cleaning tools het best op gegevens die bestaan uit namen en codes. Data-profiling tools werken op allerlei soorten gegevens, zelfs de meest inhumane verzamelingen bytes.
Werkt een data-profiling tool alleen als er een datawarehouse gebouwd is? Nee, een data-profiling tool is nuttig voor elke verzameling gegevens die geanalyseerd moet worden. Dus ook als je slechts wilt kijken naar de kwaliteit van de gegevens in jouw productiesystemen, kunnen ze hun waarde hebben.
Kennen data-profiling tools geen zwakke punten? Uiteraard wel. De prijs van deze producten ligt veel te hoog. De meeste zouden een factor tien goedkoper moeten zijn. De prijs staat niet in verhouding tot de hoeveelheid en complexiteit van de software. Ook zijn enkele van de leveranciers nog erg klein. Investeren hierin houdt dan altijd een risico in.
Afgezien van deze nadelen geldt dat je jezelf tekort doet als je gegevenskwaliteit hoog in het vaandel hebt staan, maar nog nooit naar een data-profiling tool hebt gekeken. Elke organisatie hoort een strategie te hebben om de gegevenskwaliteit te waarborgen. En een data-profiling tool hoort in de gereedschapkist te zitten van diegenen die voor de gegevenskwaliteit verantwoordelijk zijn.< BR>
 
Rick F. van der Lans is onafhankelijk adviseur, een internationaal bekend spreker en auteur van diverse boeken, tevens gespecialiseerd in softwareontwikkeling, datawarehousing en internet.

Meer over

DatawarehouseECM

Deel

    Inschrijven nieuwsbrief Computable

    Door te klikken op inschrijven geef je toestemming aan Jaarbeurs B.V. om je naam en e-mailadres te verwerken voor het verzenden van een of meer mailings namens Computable. Je kunt je toestemming te allen tijde intrekken via de af­meld­func­tie in de nieuwsbrief.
    Wil je weten hoe Jaarbeurs B.V. omgaat met jouw per­soons­ge­ge­vens? Klik dan hier voor ons privacy statement.

    Whitepapers

    Computable.nl

    Beveiliging van AI in de praktijk

    AI is hot, maar de praktijk binnen grote organisaties blijkt weerbarstig. Stop met brandjes blussen; zo schaal en beveilig je met succes.

    Computable.nl

    Bouw de AI-organisatie niet op los zand

    Wat is de afweging tussen zelf bouwen of het benutten van cloud?

    Computable.nl

    De weg van dataverzameling naar impact

    Iedere organisatie heeft data, maar niet iedereen weet hoe je het goed gebruikt. Hoe zet je waardevolle informatie om in actie?

    Geef een reactie Reactie annuleren

    Je moet ingelogd zijn op om een reactie te plaatsen.

    Populaire berichten

    Meer artikelen

    Uitgelicht

    Pieter de Haer, Portfoliomanager Previder

    Partnerartikel
    AdvertorialCloud & Infrastructuur

    Hybride cloud: belofte of valkuil?

    Pieter de Haer, Portfoliomanager Previder De hybride cloud is de belofte van dit moment. Organisaties zien een model voor zich...

    Meer persberichten

    Meer lezen

    OpinieSecurity & Awareness

    Veelzijdige cyberaanvallen vereisen uniforme verdediging

    Windows 10
    ActueelData & AI

    Kort: Windows 10, Mistral, Salt Typhoon, TTNL Group, DeepL, algoritme-vertrouwen

    Michael Teichmann
    AchtergrondCarrière

    Topmanager onderschat digitale dreiging schromelijk

    Klantcontact met ai
    OpinieData & AI

    Technologie (ook ai) is geen doel, wat telt is wat je er mee doet 

    ai
    ActueelData & AI

    Kort: Adviesraad voor NDS, contractbreuk VMware, ook Cloudflare gehackt (en meer)

    Man met laptop, de term AI in beeld
    OpinieData & AI

    Term ‘neutrale ai’ is misleidend

    ...

    Footer

    Direct naar

    • Carrièretests
    • Kennisbank
    • Planning
    • Computable Awards
    • Magazine
    • Abonneren Magazine
    • Cybersec e-Magazine
    • Topics
    • Phishing
    • Ransomware
    • NEN 7510

    Producten

    • Adverteren en meer…
    • Jouw Producten en Bedrijfsprofiel
    • Whitepapers & Leads
    • Vacatures & Employer Branding
    • Persberichten

    Contact

    • Colofon
    • Computable en de AVG
    • Service & contact
    • Inschrijven nieuwsbrief
    • Inlog

    Social

    • Facebook
    • X
    • LinkedIn
    • YouTube
    • Instagram
    © 2025 Jaarbeurs
    • Disclaimer
    • Gebruikersvoorwaarden
    • Privacy statement
    Computable.nl is een product van Jaarbeurs