Computable.nl
  • Thema’s
    • Carrière
    • Innovatie & Transformatie
    • Cloud & Infrastructuur
    • Data & AI
    • Governance & Privacy
    • Security & Awareness
    • Software & Development
    • Werkplek & Beheer
  • Sectoren
    • Channel
    • Financiële dienstverlening
    • Logistiek
    • Onderwijs
    • Overheid
    • Zorg
  • Awards
    • Computable Awards
    • Nieuws
    • Winnaars
    • Partner worden
    • Inzendingen
    • De jury en experts
  • Vacatures
    • Vacatures bekijken
    • Vacatures plaatsen
  • Bedrijven
    • Profielen
    • Producten & Diensten
  • Kennisbank
  • Magazine
    • Magazine
    • Adverteren in het magazine
  • Nieuwsbrief

Data-profiling tools

26 februari 2004 - 23:004 minuten leestijdOpinieData & AI
Rick van der Lans
Rick van der Lans

Met ons allen hebben we op deze planeet al voor miljarden euro’s aan datawarehouse-projecten uitgegeven. Sommige projecten slaagden, andere waren minder succesvol. Een van de bekende ‘showstoppers’, zoals de Amerikanen dat zo mooi kunnen zeggen, is de aanwezigheid van vervuilde gegevens in productiesystemen.

Het heeft weinig zin om een datawarehouse te bouwen als de aangeleverde gegevens zwaar vervuild zijn. Rapporten creëren die er mooi uitzien, maar waarvan de gegevens onbetrouwbaar zijn, heeft niet veel zin. Het kan zelfs gevaarlijk zijn voor de bedrijfsvoering.
De hoeveelheid vervuilde gegevens in productiesystemen is bij sommige organisaties groot. Zeker gegevens die ooit met de hand zijn ingetikt. Inconsistente waarden, inconsistente coderingen, foutief gespelde namen, onmogelijke waarden, het zijn allemaal veel voorkomende vormen van vervuilde gegevens. En dan hebben we het we nog niet eens over de vervuilde gegevens die we niet eens als vervuild kunnen identificeren.
Sommige organisaties hebben dit probleem onderkend en, belangrijker nog, hebben zich de waarde van schone gegevens gerealiseerd. In dat geval wordt er budget vrijgemaakt om die gegevens handmatig of met ondersteuning van software op te schonen. Maar het gaat slechts om een handjevol organisaties. De rest worstelt met dit probleem en heeft geen structurele oplossing.
Een categorie softwareproducten die we kunnen gebruiken voor het opschonen van gegevens is het data-profiling tool. Een data-profiling tool bestudeert de gegevens en geeft aan waar zij denkt dat er iets niet klopt. Hiervoor is geen metadata nodig. Dus het kan ook platte bestanden analyseren die ooit met talen als Cobol zijn aangemaakt.
Data-profiling tools bekijken bijvoorbeeld welke kolommen in een bestand of tabel potentiële primaire sleutels zijn. Ze kunnen bestuderen of de aangegeven primaire sleutel wel degelijk unieke waarden bevat, aan welke syntactische patronen de waarde van een kolom voldoet, welke relaties er verstopt zitten in bestaande tabellen en tussen tabellen, en wat de distributie van waarden in een kolom is. In feite geeft een data-profiling tool een objectief beeld van de toestand van de gegevens. Het helpt een analist gegevens op te sporen die waarschijnlijk niet kloppen.
Let wel, het tool repareert de gegevens niet. Het beperkt zich tot het signaleren van mogelijk vervuilde gegevens. Het blijft de taak en de verantwoordelijkheid van de analist om actie te ondernemen.
Het aantal commercieel beschikbare data-profiling tools groeit gestaag. Momenteel kennen we Ascential Profile Stage, Avellino Discovery, Evoke Axio, First Logic IQ Insight en Mosaic Imperative Profiler.
Data-profiling tools vervangen dus niet de zogenaamde ‘data-cleaning tools’, zoals die van ETI, Human Inference en Trillium. Grofweg zijn er twee grote verschillen. Ten eerste repareren data-cleaning tools – in tegenstelling tot data-profiling tools – wel degelijk de gegevens. Verder werken data-cleaning tools het best op gegevens die bestaan uit namen en codes. Data-profiling tools werken op allerlei soorten gegevens, zelfs de meest inhumane verzamelingen bytes.
Werkt een data-profiling tool alleen als er een datawarehouse gebouwd is? Nee, een data-profiling tool is nuttig voor elke verzameling gegevens die geanalyseerd moet worden. Dus ook als je slechts wilt kijken naar de kwaliteit van de gegevens in jouw productiesystemen, kunnen ze hun waarde hebben.
Kennen data-profiling tools geen zwakke punten? Uiteraard wel. De prijs van deze producten ligt veel te hoog. De meeste zouden een factor tien goedkoper moeten zijn. De prijs staat niet in verhouding tot de hoeveelheid en complexiteit van de software. Ook zijn enkele van de leveranciers nog erg klein. Investeren hierin houdt dan altijd een risico in.
Afgezien van deze nadelen geldt dat je jezelf tekort doet als je gegevenskwaliteit hoog in het vaandel hebt staan, maar nog nooit naar een data-profiling tool hebt gekeken. Elke organisatie hoort een strategie te hebben om de gegevenskwaliteit te waarborgen. En een data-profiling tool hoort in de gereedschapkist te zitten van diegenen die voor de gegevenskwaliteit verantwoordelijk zijn.< BR>
 
Rick F. van der Lans is onafhankelijk adviseur, een internationaal bekend spreker en auteur van diverse boeken, tevens gespecialiseerd in softwareontwikkeling, datawarehousing en internet.

Meer over

Data warehouseECM

Deel

    Inschrijven nieuwsbrief Computable

    Door te klikken op inschrijven geef je toestemming aan Jaarbeurs B.V. om je naam en e-mailadres te verwerken voor het verzenden van een of meer mailings namens Computable. Je kunt je toestemming te allen tijde intrekken via de af­meld­func­tie in de nieuwsbrief.
    Wil je weten hoe Jaarbeurs B.V. omgaat met jouw per­soons­ge­ge­vens? Klik dan hier voor ons privacy statement.

    Whitepapers

    Computable.nl

    Videobeveiliging naar de cloud

    Ontwikkelingen in videobeveiliging en cloud-gebaseerde securityplatformen

    Computable.nl

    Geïntegreerde ICT in de zorg

    Hoe samenhang in IT bijdraagt aan continuïteit en veiligheid

    Computable.nl

    Agentic AI in de praktijk

    Hoe autonome AI werkprocessen fundamenteel verandert

    Geef een reactie Reactie annuleren

    Je moet ingelogd zijn op om een reactie te plaatsen.

    Awards-nominaties

    Pijl naar rechts icoon

    Check Point

    Nadia van Beelen (Sales Associate, Check Point Technologies)
    Pijl naar rechts icoon

    ForceFusion

    Amber Quist (Cyber security specialist, ForceFusion)
    Pijl naar rechts icoon

    Hyperfox

    Vereenvoudiging besteloroces bij Duplast, specialist in voedselverpakkingen (Duplast en Hyperfox)
    Pijl naar rechts icoon

    Prodek Solutions BV

    Compleet pakket voor digitale aansturing duurzame energie bij Odura (Odura en Prodek Solutions)
    Pijl naar rechts icoon

    Norday

    Hyper-gepersonaliseerde cultuurpodcasts die nieuwe bezoekers vaker laten terugkomen via Wondercast (Norday en het Rotterdams Philharmonisch Orkest)
    Alle inzendingen
    Pijl naar rechts icoon

    Populaire berichten

    Meer artikelen

    Uitgelicht

    Partnerartikel
    Security & Awareness

    OT monitoring herzien: van inzicht naa...

    Monitoring en logging van netwerkverkeer vormen een onmisbare basis voor OT security. Tegelijkertijd groeit het besef dat zichtbaarheid op zichzelf het risico niet verlaagt. In een omgeving met toenemende dreigingen,...

    Meer persberichten

    Meer lezen

    Software & Development

    Nieuwe Baan-generatie geeft met Rappit bedrijven grip op ai-gedreven softwareontwikkeling

    Data & AI

    Kort: Ai-cloud­spe­lers dagen hy­pers­ca­lers uit, Nearfield haalt re­cord­be­drag op (en meer)

    Innovatie & Transformatie

    Ai-model met ruim 400 miljard parameters wint Europese ai-competitie

    Data & AI

    Agent als collega: governance is geen bijzaak

    Data & AI

    Copilot Cowork wereldwijd algemeen beschikbaar

    Data & AI

    Wat loopt er mis bij Accenture?

    ...

    Footer

    Direct naar

    • Carrièretests
    • Kennisbank
    • Computable Awards
    • Magazine
    • Ontvang Computable e-Magazine
    • Cybersec e-Magazine
    • Topics
    • Phishing
    • Ransomware
    • NEN 7510

    Producten

    • Adverteren en meer…
    • Jouw Producten en Bedrijfsprofiel
    • Whitepapers & Leads
    • Vacatures & Employer Branding
    • Persberichten
    • Blogwire

    Contact

    • Colofon
    • Computable en de AVG
    • Service & contact
    • Inschrijven nieuwsbrief
    • Inlog

    Social

    • Facebook
    • X
    • LinkedIn
    • YouTube
    • Instagram
    © 2026 Jaarbeurs
    • Disclaimer
    • Gebruikersvoorwaarden
    • Privacy statement
    Computable.nl is een product van Jaarbeurs