Big data, bestaat het wel?

14 mei 2012 - 15:244 minuten leestijdOpinieCloud & Infrastructuur

In de definitie van big data worden termen als volume, ongestructureerdheid, snelheid en variatie gebruikt. Dat maakt het een behoorlijke vage en allesomvattend term, maar definities zijn net als orde en netheid voor de dommen, want alleen het genie beheerst de chaos. Als je op zoek bent naar het gouden businessidee verwacht je niet dat deze op een presteerblaadje wordt aangeboden. Dat zijn namelijk opinies, gedachten van een ander.

De big data binnen sociale media zijn ook de gedachten van een ander. In onze ijver om alles te digitaliseren staan met sociale onze gedachten sneller op internet dan op papier, wat natuurlijk een goudmijn is voor sociologen, politicologen, psychologen en ieder die zich wetenschappelijk bezig houdt met de samenleving, menselijke geest en bijkomend gedrag. Data mining in de cloud geeft dan soms inderdaad inzicht in relaties die anders verborgen blijven doordat sociale netwerken een soort ‘relationele’ databases zijn. En dus terwijl iedereen bezig is met Wordfeud, het ouderwetse Scrabble op iternet, zitten anderen dus gewoon Cluedo te spelen.

Relativiteitstheorie

Bij het zoeken naar de speld in de hooiberg gaat het trouwens altijd om de clou, de aanwijzing of het idee dat de oplossing er is maar dat deze nog niet zichtbaar is door alle dingen er om heen. Dat is net als de beeldhouwer die zijn meesterwerk al ziet in een rotsblok maar er alleen nog de overbodige stukken steen van weg hoeft te halen. En dat hoeft in tegenstelling tot de definitie die er gegeven wordt zeker niet altijd vlug te gebeuren maar wel heel behoedzaam om niet mis te slaan. Dit geldt zeker voor het verwerken van medische data en onderzoeksgegevens waar zeker niet te snel in conclusies gesprongen mag worden. Zekerheid, zorgvuldigheid, reproduceerbaarheid en controleerbaarheid zijn daar de kernwoorden die succes of falen bepalen. Want juist in deze onderzoeksgebieden is het de regel dat wie te snel wil zich uiteindelijk prikt aan de speld die in de hooiberg verstopt ligt. Of in het geval van de relativiteitstheorie aan de naald van een heel snel draaiend spinnewiel, een deeltjesversneller waarmee nog niet aangetoond is dat we in de tijd kunnen reizen.

De matrix

Waarde van grote data naar een organisatie valt dan eigenlijk ook uiteen in twee categorieën: analytische gebruik en het mogelijk maken van nieuwe producten of diensten. Hierbij is laatste misschien teveel een modewoord dat in speelt op onze natuurlijke nieuwsgierigheid om in de toekomst te kijken. Misschien dat de prognose beter wordt als rekening gehouden wordt met duizend factoren in plaats van tien of honderd, maar dan nog wordt het toeval niet uitgesloten. Het toeval bijvoorbeeld dat we E.T. vinden in de astronomische hooiberg met het Seti@Home-project. Dit project is ooit geboren uit zuinigheid maar ondertussen overgenomen door Boinc en vele andere computergrids. Hiermee worden tegenwoordig veel wiskundige formules en grote hoeveelheden data onderzocht. Enig probleem is de snelheid die uiteindelijk bepaald wordt door de schaalbaarheid van het netwerk, de prestatie van de opslag en de software zoals Hadoop, Gridgain, Hazelcast, DAC en vele andere open source-alternatieven.

1 + 1 = 3

Met cloud computing hebben we een schaalbaarheid die minder wispelturig is dan Boinc waar beschikbaar stellen van rekenkracht op basis van vrijwilligheid gedaan wordt. Dat stelt natuurlijk wel eisen aan het netwerk waarin latency vermeden moet worden en ook de beveiliging niet vergeten mag worden. Maar nog belangrijker is het magazijn, de opslag waar zowel voorraad werk (halffabricaat) als het eindproduct ligt. Hoge capaciteit disken als sata bieden een mogelijkheid om goedkoop petabytes op te slaan maar zijn te traag voor snelle verwerking. En solid state disken (ssd) zijn wel snel maar bieden weer niet de benodigde capaciteit. Dat vraagt dus om een ‘tiered' oplossing waar snelheid zo dicht mogelijk bij de krachtigste verwerker gebracht wordt. En hoewel sommige het ontraden en direct attached storage (das) adviseren is een storage area netwerk (san) uiteindelijk de enige oplossing. De datamanagement mogelijkheden hiervan bieden namelijk ook ‘low level' trucs om te voorkomen dat netwerk overbelast wordt en processorkracht verspild.

Bibelebontse berg

De berg data is soms gigantisch, niet alleen produceren we dagelijkse in sociale media gigabytes maar ook in de wetenschap worden enorme hoeveelheden aangemaakt. We moeten echter niet proberen de berg te verplaatsen, zelfs met huidige netwerkbandbreedte duurt dat vaak gewoon te lang. Nee, we moeten er het datawarehouse op bouwen zodat we de digitale pap in onze digitale nap krijgen. Grid computing en data grids zoals we deze kennen van peer-to-peer netwerken zijn de sleutel tot deze Bibelebontse berg, het internet waarmee we met onze computers, smartphones of tablets dagelijks nieuwe data produceren en consumeren. Realtime of just in time is uiteindelijk gewoon een scheduling probleem, de logistiek die opgelost kan worden met ‘cloud bursting' waarmee we een enorme en controleerbare schaalbaarheid hebben.

5 reacties op “Big data, bestaat het wel?”

Henri Koppen schreef:

17 mei 2012 om 08:38

Toen ik de titel zag in het lijstje artikelen, dacht ik “daar gaan we weer”. Prettig verrast werd ik toen ik zag dat jij het geschreven had omdat je reacties op artikelen goed onderbouwd zijn, maar jouw artikelen zelf een nog mooiere opbouw hebben.

Mooi geschreven, maar wellicht ik orde en netheid nodig 🙂 Ofwel, ik begrijp nu niet goed wat de titel betekend (of heeft de redactie deze aangepast?).

Big Data kent abstract twee onderdelen: Techniek & Inhoud. Techniek is hoe je data opslaat, opspaart, laat stromen, beheerst en dat soort zaken. Inhoud is hoe je iets uit de data haalt van waarde.

In het begin schrijf je iets over wat big data betekend maar al snel verplaats je de focus naar techniek.

En aan het eind denk ik alleen maar “big data” is een kwestie van logistiek?

Login om te reageren
Reza Sarshar schreef:

17 mei 2012 om 13:47

Ewoud,
Het komt niet vaak voor maar….Ik sluit me bij Henri aan :-p
Het was een beetje lastig voor me om de logica in dit artikel te vinden en dat vervolgens vast te houden. Er is een boodschap in je artikel maar niet snel zichtbaar, vind ik!
Terug naar je artikel, ik maak daaruit op dat de Big Data niet echt bestaat want de huidige en toekomstige ontwikkelingen kunnen een antwoord geven op de behoefte (dus de behoefte zal geen probleem worden!)
Als mijn conclusie klopt dan vraag ik me af of we met dit gedrag het probleem niet naar de toekomst gaan schuiven?! Of kunnen we nu al een oplossing vinden zodat we grondig het “ontstaan” van dit probleem kunnen “vertragen” of zelfs voorkomen?
Ik denk dat de eerste stap is, het creeren van een beleid en visie rondom data (hoeveelheid, soort, verwevenheid, beschikbaarheid etc).

Vervolgens kunnen we van de bestaande of toekomstige mogelijkheden en ontwikkelingen gebruik maken om onze visie of beleid om te zetten in resultaten. In deze fase zullen de zaken zoals Grid Computing, Cloud, nieuwe DWH, hardware-ontwikkelingen (SSD- Storage tiering, etc) verder overwogen kunnen worden.

Login om te reageren
Maarten Oberman schreef:

17 mei 2012 om 17:21

Leuk verhaal.. dat zeker, maar
Big data vergt: “smart computing” in combinatie met “large networking”…. Leuk dat het Seti project genoemd wordt. Er zijn meer van dat soort toepassingen, die er voor zorgen dat data over veel computers verspreid bewerkt worden, ieder zijn deel maar wel in samenhang om die spelt te zoeken en wellicht te vinden. Er is tenslotte veel processingpower die niet echt gebruikt wordt, maar op die manier wel beschikbaar kan worden gemaakt. Niet iets voor het bedrijfsleven, maar wel voor SETI vergelijkbare projecten.

Login om te reageren
edekkinga schreef:

18 mei 2012 om 12:09

@Henri

Big data is techniek en inhoud, mooier kun je het eigenlijk niet zeggen. Natuurlijk gaat het om de inhoud, de waarde die de data of eigenlijk de informatie heeft bij analytische verwerking of het potentieel dat erin zit bij het zoeken naar nieuwe oplossingen. Maar vanuit het perspectief techniek is opslaan, transporteren en verwerken van data toch vooral een kwestie van logistiek. Want kijkend naar de technologische ontwikkelingen, waar wet van Moore door limieten ondertussen niet meer geldig is, gaan we steeds meer parallellisatie toepassen door multi-core processoren, scale-out en Cloud Computing. Dit legt meer druk op de scheduling, een belangrijk onderdeel van realtimebesturingsystemen. Die scheduling kan op meerdere manieren gedaan worden zoals bijvoorbeeld first-come-first-serviced, prioriteit, shortest-job-first of round-robin en zal in computergrids een samenspel hiervan zijn. Behoorlijke complexe algoritmes waarbij niet alleen rekening gehouden moet worden met mogelijkheden van de hardware maar ook de karakteristieken van de inhoud, de waarde van de informatie.

De wetenschap verwerkt echter al decennia lang grote hoeveelheden data in verschillende verwerkingsmatrixen en clusters. Onderzoeken van astronomische ruis via een Cluster of Workstations (COW) via SETI@HOME heeft bijvoorbeeld grote publieke bekendheid gekregen. Nieuw is Big Data dus zeker niet maar het krijgt nu wel meer aandacht doordat we allemaal een PC, notebook, smartphone en tablet hebben met bij elkaar meer geheugen en rekenkracht dan oude mainframes. Met parallellisatie maken we dus niet alleen een berg data maar kunnen deze hiermee ook verwerken. Nu zal bereidwilligheid om onbaatzuchtig rekenkracht beschikbaar te stellen aan profit organisaties die, net als met onze informatie in sociale netwerken hier geld aan verdienen waarschijnlijk wel kleiner zijn. Een initiatief als Bitcoins, waar virtueel geld verkregen wordt door ‘mining’zou hier misschien verandering in kunnen brengen.

Natuurlijk komt het dan wederom aan op de inhoud, de waarde van de data die beveiligd moet worden. Informatie heeft nu eenmaal een waarde en verkrijgen hiervan middels bijvoorbeeld ‘mining’ vraagt dus een inspanning en investering. Encryptie kan helpen bij transport en opslag maar biedt in tegenstelling tot compartimering geen soelaas voor verwerking die nu eenmaal onversleuteld gedaan moet worden. Verwerken van ‘ruwe’ data, stukjes ruis kan wel gedistribueerd gedaan worden en Cloud Computing biedt hierbij elasticiteit. Hierbij wordt het transport, de routering in het computergrid dus wederom een logistiek vraagstuk waar aandacht niet op omvang maar beveiliging ligt. Big data is vanuit een techniek visie volgens mij meer een datamanagement uitdaging dan een verwerkingsprobleem.

Login om te reageren
edekkinga schreef:

19 mei 2012 om 22:24

@Reza

Aanhalen van datamanagement is misschien niet direct een link die naar Big Data gelegd kan worden maar wel interessant omdat de omvang van data enorm toeneemt, een onomkeerbaar resultaat van onze steeds verdergaande digitalisering. En net als dat je een boom makkelijker in het bos verstopt dan het open veld zit in de toename en verspreiding ook het gevaar van fraude. Doorspitten van de terrabytes aan data op specifieke patronen kan helpen bij het vinden of voorkomen hiervan en dit wordt dan ook al veel gedaan. Verrijken hiervan met data uit andere bronnen, zoals sociale media zorgt misschien voor een groter slagingspercentage maar de vraag is in hoeverre dat wettelijk is toegestaan. Berichten in media laten zien dat opsporingsdiensten wel steeds vaker uit deze bronnen putten in hun onderzoeken en vragen hierover in politiek worden (nog) niet echt beantwoord. Big data wordt op deze manier wel erg Big Brother.

Maar met ruim 400 gemeenten die elk hun eigen basisadministratie bijhouden zal samenvoegen waarschijnlijk wel zorgen dat ‘spookburgers’ makkelijker gevonden kunnen worden. Ruim 16 miljoen records met ik weet niet hoeveel velden lijkt me wel aan de definitie Big data te voldoen. En denkend aan de fraude in Griekenland met uitkeringen van mensen die al lang overleden waren valt er wat voor te zeggen om dit ook te doen. Want vervuiling van databestanden zorgt niet alleen voor fraude maar ook voor andere problemen omdat vaak meer waarde gehecht wordt aan de ‘virtuele waarheid’ dan de realiteit. En wanneer die realiteit dan uiteindelijk met een mokerslag werkelijkheid wordt is misschien geen Big Data maar Big Money. Begrip Big Data is trouwens ook pas recentelijk ‘hot’ geworden wat natuurlijk mede het gevolg is van de nieuwe oplossingen, diensten en mogelijkheden die er kwamen. Het is wat dat betreft net als met de stoommachine waar de uitvinding van de krukas pas voor de revolutie zorgde.

Terwijl wetenschap al een decennia of meer, met bijvoorbeeld SETI grote hoeveelheden data verwerkt staat het begrip Big Data nog maar recentelijk op de agenda. Ik ontken dus niet dat we grote hoeveelheden data hebben maar heb wat moeite met de definities die hiervoor gegeven worden. Het maakt hiervan een ‘kapstok’ begrip waarbij ik het wel interessant vind omdat het zo ruim toepasbaar is. Dat betekent meestal wel maatwerk in zowel de keus van componenten als de configuratie van database, opslag en dergelijke. Want soms is de bulkload van enorme hoeveelheden data in een database belangrijk andere keren het rationaliseren van ongestructureerde data. Daarmee kom ik weer terug op het idee dat het vooral een logistiek probleem is, waar komen de machines, de vrachtwagens en de magazijnen?

Login om te reageren