Computable.nl
  • Thema’s
    • Carrière
    • Innovatie & Transformatie
    • Cloud & Infrastructuur
    • Data & AI
    • Governance & Privacy
    • Security & Awareness
    • Software & Development
    • Werkplek & Beheer
  • Sectoren
    • Channel
    • Financiële dienstverlening
    • Logistiek
    • Onderwijs
    • Overheid
    • Zorg
  • Computable Awards
    • Overzicht
    • Nieuws
    • Winnaars
    • Partner worden
  • Vacatures
    • Vacatures bekijken
    • Vacatures plaatsen
  • Bedrijven
    • Profielen
    • Producten & Diensten
  • Kennisbank
  • Nieuwsbrief

Data-profiling tools

26 februari 2004 - 23:004 minuten leestijdOpinieData & AI
Rick van der Lans
Rick van der Lans

Met ons allen hebben we op deze planeet al voor miljarden euro’s aan datawarehouse-projecten uitgegeven. Sommige projecten slaagden, andere waren minder succesvol. Een van de bekende ‘showstoppers’, zoals de Amerikanen dat zo mooi kunnen zeggen, is de aanwezigheid van vervuilde gegevens in productiesystemen.

Het heeft weinig zin om een datawarehouse te bouwen als de aangeleverde gegevens zwaar vervuild zijn. Rapporten creëren die er mooi uitzien, maar waarvan de gegevens onbetrouwbaar zijn, heeft niet veel zin. Het kan zelfs gevaarlijk zijn voor de bedrijfsvoering.
De hoeveelheid vervuilde gegevens in productiesystemen is bij sommige organisaties groot. Zeker gegevens die ooit met de hand zijn ingetikt. Inconsistente waarden, inconsistente coderingen, foutief gespelde namen, onmogelijke waarden, het zijn allemaal veel voorkomende vormen van vervuilde gegevens. En dan hebben we het we nog niet eens over de vervuilde gegevens die we niet eens als vervuild kunnen identificeren.
Sommige organisaties hebben dit probleem onderkend en, belangrijker nog, hebben zich de waarde van schone gegevens gerealiseerd. In dat geval wordt er budget vrijgemaakt om die gegevens handmatig of met ondersteuning van software op te schonen. Maar het gaat slechts om een handjevol organisaties. De rest worstelt met dit probleem en heeft geen structurele oplossing.
Een categorie softwareproducten die we kunnen gebruiken voor het opschonen van gegevens is het data-profiling tool. Een data-profiling tool bestudeert de gegevens en geeft aan waar zij denkt dat er iets niet klopt. Hiervoor is geen metadata nodig. Dus het kan ook platte bestanden analyseren die ooit met talen als Cobol zijn aangemaakt.
Data-profiling tools bekijken bijvoorbeeld welke kolommen in een bestand of tabel potentiële primaire sleutels zijn. Ze kunnen bestuderen of de aangegeven primaire sleutel wel degelijk unieke waarden bevat, aan welke syntactische patronen de waarde van een kolom voldoet, welke relaties er verstopt zitten in bestaande tabellen en tussen tabellen, en wat de distributie van waarden in een kolom is. In feite geeft een data-profiling tool een objectief beeld van de toestand van de gegevens. Het helpt een analist gegevens op te sporen die waarschijnlijk niet kloppen.
Let wel, het tool repareert de gegevens niet. Het beperkt zich tot het signaleren van mogelijk vervuilde gegevens. Het blijft de taak en de verantwoordelijkheid van de analist om actie te ondernemen.
Het aantal commercieel beschikbare data-profiling tools groeit gestaag. Momenteel kennen we Ascential Profile Stage, Avellino Discovery, Evoke Axio, First Logic IQ Insight en Mosaic Imperative Profiler.
Data-profiling tools vervangen dus niet de zogenaamde ‘data-cleaning tools’, zoals die van ETI, Human Inference en Trillium. Grofweg zijn er twee grote verschillen. Ten eerste repareren data-cleaning tools – in tegenstelling tot data-profiling tools – wel degelijk de gegevens. Verder werken data-cleaning tools het best op gegevens die bestaan uit namen en codes. Data-profiling tools werken op allerlei soorten gegevens, zelfs de meest inhumane verzamelingen bytes.
Werkt een data-profiling tool alleen als er een datawarehouse gebouwd is? Nee, een data-profiling tool is nuttig voor elke verzameling gegevens die geanalyseerd moet worden. Dus ook als je slechts wilt kijken naar de kwaliteit van de gegevens in jouw productiesystemen, kunnen ze hun waarde hebben.
Kennen data-profiling tools geen zwakke punten? Uiteraard wel. De prijs van deze producten ligt veel te hoog. De meeste zouden een factor tien goedkoper moeten zijn. De prijs staat niet in verhouding tot de hoeveelheid en complexiteit van de software. Ook zijn enkele van de leveranciers nog erg klein. Investeren hierin houdt dan altijd een risico in.
Afgezien van deze nadelen geldt dat je jezelf tekort doet als je gegevenskwaliteit hoog in het vaandel hebt staan, maar nog nooit naar een data-profiling tool hebt gekeken. Elke organisatie hoort een strategie te hebben om de gegevenskwaliteit te waarborgen. En een data-profiling tool hoort in de gereedschapkist te zitten van diegenen die voor de gegevenskwaliteit verantwoordelijk zijn.< BR>
 
Rick F. van der Lans is onafhankelijk adviseur, een internationaal bekend spreker en auteur van diverse boeken, tevens gespecialiseerd in softwareontwikkeling, datawarehousing en internet.

Meer over

DatawarehouseECM

Deel

    Inschrijven nieuwsbrief Computable

    Door te klikken op inschrijven geef je toestemming aan Jaarbeurs B.V. om je naam en e-mailadres te verwerken voor het verzenden van een of meer mailings namens Computable. Je kunt je toestemming te allen tijde intrekken via de af­meld­func­tie in de nieuwsbrief.
    Wil je weten hoe Jaarbeurs B.V. omgaat met jouw per­soons­ge­ge­vens? Klik dan hier voor ons privacy statement.

    Whitepapers

    Computable.nl

    Bouw de AI-organisatie niet op los zand

    Wat is de afweging tussen zelf bouwen of het benutten van cloud?

    Computable.nl

    De weg van dataverzameling naar impact

    Iedere organisatie heeft data, maar niet iedereen weet hoe je het goed gebruikt. Hoe zet je waardevolle informatie om in actie?

    Computable.nl

    In detail: succesvolle AI-implementaties

    Het implementeren van kunstmatige intelligentie (AI) biedt enorme kansen, maar roept ook vragen op. Deze paper beschrijft hoe je als (middel)grote organisatie klein kunt starten met AI en gaandeweg kunnen opschalen.

    Meer lezen

    ciso
    ActueelSecurity & Awareness

    Nova Advisor Agent: gamechanger voor ciso of ai-hype?

    AdvertorialData & AI

    Private AI helpt gemeenten met vertrouwen, veiligheid en efficiëntie

    ActueelSecurity & Awareness

    Belang digitale soevereiniteit in Europese cybersecurity neemt toe

    OpinieData & AI

    Agentic ai is geen buzzwoord, het is een gamechanger

    Start
    ActueelCloud & Infrastructuur

    Kort: Vergunning voor datacenter EvoSwitch, piepjonge Perry haalt 1,6 miljoen op (en meer)

    Handen, samenwerken, fusie
    ActueelOverheid

    Meer regie en samenwerking bij digitalisering overheid

    Geef een reactie Reactie annuleren

    Je moet ingelogd zijn op om een reactie te plaatsen.

    Populaire berichten

    Meer artikelen

    Uitgelicht

    Partnerartikel
    AdvertorialInnovatie & Transformatie

    Ontdek de toekomst van IT-support en m...

    Op 16 september 2025 vindt in de Jaarbeurs in Utrecht een gloednieuw event plaats dat volledig is gericht op IT-professionals:...

    Meer persberichten

    Footer

    Direct naar

    • Carrièretests
    • Kennisbank
    • Planning
    • Computable Awards
    • Magazine
    • Abonneren Magazine
    • Cybersec e-Magazine
    • Topics

    Producten

    • Adverteren en meer…
    • Jouw Producten en Bedrijfsprofiel
    • Whitepapers & Leads
    • Vacatures & Employer Branding
    • Persberichten

    Contact

    • Colofon
    • Computable en de AVG
    • Service & contact
    • Inschrijven nieuwsbrief
    • Inlog

    Social

    • Facebook
    • X
    • LinkedIn
    • YouTube
    • Instagram
    © 2025 Jaarbeurs
    • Disclaimer
    • Gebruikersvoorwaarden
    • Privacy statement
    Computable.nl is een product van Jaarbeurs