Integreren van gegevens
Rick van der LansNagenoeg elke organisatie is druk bezig met het integreren van gegevens. De meeste beperken deze exercitie echter tot het integreren van hun interne gegevens. Dit is al een uitdaging, omdat die gegevens vaak niet passen. Er worden bijvoorbeeld, andere sleutels gehanteerd en namen zijn niet consistent gespeld. Het probleem wordt nog ingewikkelder als we gegevens van verschillende organisaties willen integreren.
Laten we als voorbeeld een fictief bedrijf nemen genaamd OpDePof. Klanten kunnen bij OpDePof een klantenkaart aanvragen. De klanten kunnen met hun kaart op krediet kopen, maar niet voor meer dan vijfhonderd euro op een bepaald moment.Er kunnen simpele controles in hun systemen ingebouwd worden om te zorgen dat elke klant onder die limiet blijft. Maar hoe vinden we uit dat die klant misschien drie klantenkaart heeft aangevraagd? Hoe weten we dat die drie eigenlijk dezelfde klant zijn? Als de klant slim is dan heeft hij voldoende afwijkende gegevens op het aanvraagformulier ingevuld, zodat niet met een simpele query bepaald kan worden dat het om dezelfde persoon gaat. Geavanceerde technologie is noodzakelijk om klanten te identificeren. Er komen steeds meer producten op de markt die ons hierbij kunnen helpen. De Engelstalige term voor deze oplossing is identity resolution. Grote leveranciers, zoals IBM, maar ook kleinere, zoals FirstLogic, bieden hier met speciale software oplossingen voor.
De volgende stap is dat OpDePof wil weten of een groep verschillende mensen die een hechte relatie hebben allemaal een kaart aanvragen. Bijvoorbeeld, alle leden van een familie, of bijvoorbeeld een groep studenten die samenwoont. Misschien wil OpDePof voor zo'n groep ook beperkingen opleggen, zoals het aantal te verstrekken klantenkaarten. Hiervoor moeten klanten op basis van verschillende eigenschappen gerelateerd worden. Bijvoorbeeld, waar wonen ze (strasat, plaats, et cetera), van welke verenigingen en organisaties zijn ze lid, wat zijn de familierelaties? Is die informatie bekend, dan kunnen we relatienetwerken van verschillende klanten opbouwen en deze daarna met elkaar combineren en kijken of er veel overlap is. Dit wordt relationship resolution genoemd.
OpDePof wil nog een stap verdergaan. Ze willen hun gegevens relateren aan die van een concurrerend bedrijf. Stel dat laatstgenoemde een bestand heeft met klanten die zich niet zo netjes gedragen hebben. Het zou dan mooi zijn als OpDePof hun klantenbestand kan vergelijken met die zwarte lijst. Die concurrent zal echter niet staan te springen om zomaar deze gegevens te verstrekken. OpDePof wilt haar gegevens ook niet uit handen geven. Met anonymous resolution worden gegevens uit beide bestanden eerst omgezet naar algemene gegevens. Een naam als Rob wordt omgezet naar Robert, de afkorting voor de stad SF wordt omgezet naar San Francisco. Daarna worden beide bestanden naar neutrale codes omgezet, alsof er een encryptie plaatsvindt. Tenslotte wordt de vergelijking van gegevens uitgevoerd op basis van die anonieme codes. De overeenkomende klanten worden hierna naar de twee betreffende bedrijven teruggestuurd. Zij decoderen dan die binnenkomende gegevens en hopelijk vinden ze hiermee de klanten die ze liever geen klantenkaart willen verstrekken. De bedrijven zien elkaars gegevens niet, maar een vergelijking is toch mogelijk.
Dit zijn allemaal producten en technologieën die voor diverse commerciële en niet-commerciële organisaties de kwaliteit van de gegevens kunnen verbeteren, en zeker ook de informatiewaarde van gegevens kunnen verhogen. Helaas zet maar een klein percentage van de organisaties producten in om hun gegevens op te schonen. Deze nieuwe categorie producten gaat nog een stap verder, en de vraag is dan ook hoe succesvol zullen ze worden? De acceptatie wordt ongetwijfeld beïnvloed door wie erantwoordelijk voor de gegevenskwaliteit wordt. Eerst moeten organisaties personen of afdelingen aanwijzen die verantwoordelijk zijn voor gegevens. Daarna kan er pas over de kwaliteit van gegevens nagedacht worden en gaat men de waarde van identity resolution, relationship resolution en anonymous resolution inzien.
Een vraag die ik mijzelf wel stel is in hoeverre dit integreren van gegevens, anoniem of niet, in strijd is met de privacy-wetgeving. Maar dat deze nieuwe technologieën voor veel organisaties waardevol kan zijn, dat staat als een paal boven water.
Rick F. van der Lans is onafhankelijk adviseur, een internationaal bekend spreker en auteur van diverse boeken, tevens gespecialiseerd in softwareontwikkeling, datawarehousing en internet.
10-02 Van Vliet: Zonder internet geen welvaart
06-02 De kijk van Van Eijk: Sleutels weg
01-02 Spoelstra spreekt: Het is helemaal geen crisis
27-01 Van Vliet: Geen e-bank, geen bonus!
23-01 De kijk van Van Eijk: Technologie is een risico
18-01 Spoelstra spreekt: Flut hackers
15-01 Van Vliet: Uit het web
02-01 De kijk van Van Eijk: Onvermijdelijke vooruitgang
28-12 Spoelstra spreekt: Het verschil
23-12 Van Vliet: Politie.nl kent geen cybercrime
10-02 SecureLink migreert Microsoft-diensten Atradius
09-02 Vodafone: Wij spelen klantinformatie niet door
09-02 Lang leve de hackers!
09-02 'Ook met cookiewet is gebruiker niet anoniem'
09-02 'KPN koppelt ID aan internetverkeer'
08-02 'Nieuwe cookiewet is eenvoudig te omzeilen'
07-02 Eigen werknemer kan ook een vijand zijn
03-02 'Overheid vreest voor veiligheid in de cloud'
01-02 F5 beschermt openbare websites
31-01 Publieksvoorlichting is belangrijke taak voor NCSC
|
|
Best Practices om laptop-data te beschermen
In een tijd waarin steeds meer werknemers mobiel hun werk doen en de hoeveelheid data exponentieel toeneemt, is......


