Zijn schone gegevens belangrijk?
Rick van der LansIn een van mijn vorige columns beschreef ik de mogelijke relatie tussen een service oriented architecture (soa) en een data warehouse. Veel services die wij uiteindelijk ontwikkelen, hebben een opvraagkarakter. De service moet de gevraagde gegevens dan ergens vandaan halen. De eerste gedachte is om die uit een bronsysteem te halen, maar waarom niet uit een data warehouse? Deze bevat immers opgeschoonde gegevens. Een ideale bron dus.
Een van de lezers was het daarmee oneens en schreef een nuttige reactie. Hij ging in op de vraag waar gegevens eigenlijk opgeschoond dienen te worden. Moeten we de bronsystemen zelf reinigen, moeten we ze pas reinigen als ze de operational data store (ODS) binnenkomen, of pas als ze het data warehouse instromen?Het mooiste zou zijn als het reinigen bij de bronsystemen gebeurt. Hiervoor moeten twee exercities uitgevoerd worden. De gegevens moeten in de brondatabases gereinigd worden en de applicaties waarmee de gegevens ingevoerd worden, moeten onder handen genomen worden. Het moet moeilijker gemaakt worden voor gebruikers om incorrecte gegevens in te tikken (uiteraard zonder dat dit de gebruiksvriendelijkheid van de applicatie aantast). Doen we dit niet, dan blijft het opschonen dweilen met de kraan open.
Het aanpassen van bronsystemen is misschien wel de ideale oplossing, maar niet altijd mogelijk of gewenst. Niet elke organisatie staat te trappelen om oude bronsystemen aan te passen, omdat van sommige systemen geen documentatie meer bestaat, of omdat het aanpassen tot instabiliteit kan leiden. Als een aanpassing van bronsystemen vereist is, dan werpt dit een nog hogere drempel op om een data warehouse te gaan bouwen.
Vandaar dat veel organisaties ervoor kiezen om gegevens tijdens de kopieerslag van de bron naar de ODS of naar de data warehouse op te schonen. Het is daarmee ook een bewuste keuze om met twee inconsistente gegevensbronnen te werken: de niet-opgeschoonde bronsystemen en de wel opgeschoonde data warehouse.
Enkele organisaties besluiten om gegevens geheel niet op te schonen. De data warehouse geeft een beeld van de gegevens zoals ze in de bronsystemen opgeslagen zijn. Wel wordt er dan in de rapportage creatief met de cijfers gewerkt. Ze worden zodanig gemasseerd dat de rapporten er correct uitzien. In feite voert het rapportageproduct dan wat opschoningslagen uit. Niet ideaal, maar soms wel praktisch.
Waar en hoe een organisatie de defecte gegevens moet verbeteren, is afhankelijk van de wensen en eisen. Er is dus geen algemeen antwoord op deze vraag te geven. Het ligt aan de situatie.
Voor echte informatiefabrieken, zoals pensioen-, verzekeringsmaatschappijen en banken, zijn gegevens onmisbaar. Wat is bijvoorbeeld een pensioenmaatschappij nog waard wanneer we al hun gegevens zouden verwijderen? Uiteraard zijn hun kantoren ook wat waard, maar als we die weghalen, kan zo'n organisatie nog redelijk goed doorwerken. Gegevens zijn waarschijnlijk hun meest belangrijke bezit. Net zoals de voetballers van een professioneel voetbalteam van essentieel belang zijn, en het vrachtwagenpark dat voor een transportbedrijf is.
Bij elke informatiefabriek behoort gegevenskwaliteit hoog op de agenda te staan. Het opschonen van bronsystemen zal hier uitermate belangrijk zijn. Wat me soms wel verbaasd is dat voor sommige organisaties gegevens wel belangrijk zijn, maar dat ze die niet op de balans plaatsen. De vraag is dan hoe een dergelijke organisatie omgaat met gegevenskwaliteit.< BR>
Rick F. van der Lans is onafhankelijk adviseur, een internationaal bekend spreker en auteur van diverse boeken, tevens gespecialiseerd in softwareontwikkeling, datawarehousing en internet.
10-02 Van Vliet: Zonder internet geen welvaart
06-02 De kijk van Van Eijk: Sleutels weg
01-02 Spoelstra spreekt: Het is helemaal geen crisis
27-01 Van Vliet: Geen e-bank, geen bonus!
23-01 De kijk van Van Eijk: Technologie is een risico
18-01 Spoelstra spreekt: Flut hackers
15-01 Van Vliet: Uit het web
02-01 De kijk van Van Eijk: Onvermijdelijke vooruitgang
28-12 Spoelstra spreekt: Het verschil
23-12 Van Vliet: Politie.nl kent geen cybercrime
10-02 Tester Four Oaks in Israëlische handen
10-02 Nieuwe software brengt Vitens in problemen
08-02 Nokia verplaatst smartphoneproductie naar India
08-02 'ICT-afdeling is te traag voor ontwikkeling apps'
06-02 Banometer: Topstart vacaturemarkt krijgt vervolg
06-02 Duitse PMCS.helpLine neemt Leidse MCH+ over
03-02 Siemens PLM Software introduceert Jack 7.1
03-02 Itemis betreedt Nederlandse markt via Warmer IT
01-02 Microsoft-partner Asapnet zet IT-University op
01-02 Kwaliteitscontroleur is nog geen testprofessional
|
|
Gemeenten en ICT besparingen
Sommige gemeenten wijzigen hun autonome ICT omgeving in een samenwerkingsverband met als doel het verlagen van ICT......

