De vijf grootste misvattingen over big data

03 april 2012 - 11:336 minuten leestijdOpinieData & AI

Ik durf er gif op in te nemen dat wanneer je de afgelopen tijd de (vak)media hebt gevolgd je minimaal één, maar waarschijnlijk meerdere keren hebt gelezen over 'Big Data'. Het nieuwe buzz-woord in it-land wordt te pas en te onpas beschreven en de zoekterm levert op het moment dat ik dit schrijf in Google al een slordige honderd miljoen resultaten op.

In mijn werk als technisch directeur van Oracle Nederland spreek ik nogal wat mensen die op zoek zijn naar een kader waarin ze al het nieuws, technologie en razendsnelle ontwikkelingen moeten plaatsen. Het valt me op dat in die zoektocht vaak een aantal dezelfde misvattingen over big data de kop opsteekt. En omdat misvattingen in de regel niet leiden tot een juiste en visionaire besluitvorming, lever ik graag een bijdrage om de vijf meest gehoorde misvattingen te ontmaskeren.

1. Big data is altijd ‘BIG’
It’s all in the name…. Maar in dit geval klopt dat niet helemaal. Bij big data gaat het namelijk niet per se om de hoeveelheid (extra) gegevens waarmee je werkt, maar om wat je ermee doet. Het gaat om de rijke informatie die je filtert uit de data die beschikbaar is om te analyseren. De hoeveelheden giga, tera of exabytes zijn in 99 procent van de gevallen niet belangrijk. Je maakt van tevoren een doel dat je kunt behalen met het analyseren van bepaalde data. Dat kan door grote hoeveelheden ‘vluchtige’ data van allerlei bronnen te betrekken. Dat zijn vaak grote hoeveelheden data die maar weinig relevante en bruikbare informatie verschaffen. Maar veel organisaties vergeten dat ze al op een enorme schat aan informatie zitten die dankzij nieuwe technologieën ineens het gouden ei kunnen opleveren. Informatie die kan zorgen voor een enorme voorsprong op de concurrentie. Denk daarbij aan data in je relationele database, clicks op je website, logbestanden of het combineren van erp-, crm-, bi- en/of andere systemen.

2. Big data is Hadoop
Waar big data is, is Hadoop en omgekeerd. Als je de verhalen mag geloven tenminste. Ik zeg: geloof die verhalen niet. Toegegeven: bij veel big data-projecten speelt (Apache) Hadoop een belangrijke rol, maar de redelijk complexe software is geen must om succesvol met big data aan de slag te gaan. Hadoop is niets meer en niets minder dan een gereedschap, het doet niets anders dan data op een efficiënte manier verwerken. Het is geen Haarlemmerolie en biedt geen enkele intelligentie. Alle vergaarde ruwe data moet je zelf gaan verwerken, daarvoor moet je zelf alles inrichten en dat aan de hand van jouw idee over wat je wilt bereiken. Maar, als je iets moois wilt bouwen, heb je gereedschap nodig. Hadoop is op dit moment de meest voor de hand liggende tool om te gebruiken want het is open source en doet wat veel organisaties voor ogen hebben. Maar ook de inzet van Hadoop is waarschijnlijk tijdelijk. Het zal me niet verbazen als er binnenkort een tool komt die nog beter en sneller werkt. Zo gaat dat in deze business…

3. Big data gaat alleen om data van social media
Veel organisatie denken dat wanneer ze grote hoeveelheden data van alle sociale media binnenhalen en analyseren, ze een perfect beeld krijgen van hun klanten! Helaas is dat niet altijd zo. Maar afgezien daarvan; het is in veel gevallen niet eens toegestaan om gegevens van sociale media te plunderen en vervolgens op je eigen server op te slaan. Gebruikers geven hun data aan een bepaald medium en niet aan derde partijen die er vervolgens mee kunnen gaan spelen.

Aan de andere kant kunnen sociale media juist een erg grote rol spelen bij big data. Denk aan fraudedetectie of het analyseren van potentiële terroristen op basis van informatie die real time verschijnt. De scheidslijn hier is erg dun.

Het belangrijkste punt dat ik hier wil maken is echter dat data uit andere bronnen, en nog belangrijker, data die je al (jaren) tot je beschikking hebt, vaak wordt vergeten. Big data gaat om het innovatief combineren van data uit diverse bronnen. Dat kan heel goed data zijn die afkomstig is van sociale media, maar ga uit van je bestaande data, eventueel aangevuld met gegevens uit allerlei sensoren (in de weg, de winkel of gps), scanners, muisbewegingen en clicks op je website en geografische gegevens.

4. Traditionele databases zijn niet geschikt voor big data
Wanneer je deze stelling met een technische insteek bekijkt lijkt deze wel te kloppen. Een relationeel database management systeem (rdbms) kan namelijk veel te veel en is daardoor te duur voor gebruik in big data-projecten met grote hoeveelheden gegevens. Daarvoor is NoSQL uitgevonden, dat de rol van het puur opslaan van data zonder analyse of aanbrengen van relaties prima uitvoert. In de brij van informatie die met tools als Hadoop verwerkt wordt, zit meestal zo weinig echt bruikbare informatie dat je je rdbms daarmee niet wilt ‘vervuilen’. Maar zoals ik in de eerste misopvatting al aangaf: Big data gaat niet altijd om exabytes aan data. Soms moet je small beginnen met je big data. Besef dat je al op een gouden berg aan informatie zit. Informatie die grotendeels in je bestaande (relationele) database zit. Het doelgericht en slim analyseren van die gegevens brengt je niet alleen concurrerend voordeel, je maakt ook nog eens optimaal gebruik van je installed base.

5. Alleen Amazon, Google, Facebook en Yahoo kunnen echt iets met big data
Vrijwel alle ideeën en concepten die momenteel in big data-projecten gebruikt worden komen uit de stal van grote jongens als Facebook, Google, Yahoo of Amazon. Zij zaten een paar jaar geleden met de uitdaging om chocola te maken van de enorme hoeveelheden ongestructureerde data op hun servers. De tools (zoals het concept waarop Hadoop gebaseerd is) die zij ontwikkelden zijn nu voor iedereen verkrijgbaar en technische kennis is wijdverspreid. Maar, zoals gezegd, bij big data is de hoeveelheid gegevens niet zaligmakend. Het gaat om het doel dat je wilt bereiken, het slimme plan dat je door middel van grondige analyse gaat uitvoeren. Daar zijn deze tools geen antwoord op, slechts een middel. Het goede nieuws is dat wanneer je als organisatie, groot of klein, je plan en architectuur op orde hebt, je nu uitstekende tools voor handen hebt om je doel te bereiken.

8 reacties op “De vijf grootste misvattingen over big data”

Ruud Mulder schreef:

4 april 2012 om 07:42

Beste Sandor,

De perceptie die bij de meeste mensen en ook bij mij leeft is dat Big Data groot en veel is. De naamgeving is hier misschien ook nog een beetje debet aan. En alle marketing rondom deze “hype” maakt het er ook niet duidelijker op. Het komt op veel mensen nog te groot en te Amerikaans over.

Ik denk dat er absoluut een markt voor is, echter moet er nog wel veel evangelisten-werk en voorlichting gedaan worden om het goed over de buhne te krijgen.

Net als bij Cloud ontbreekt het nog aan standaarden en is er nog (te) veel onduidelijk.

Login om te reageren
M.J Rotman schreef:

4 april 2012 om 10:35

De term Big data kan je koppelen aan je doel en gebruik, zoals gesteld in dit artikel, maar dat maakt het praten over big data als begrip onmogelijk. Zonde. Een werkbare en heldere definitie om er in ieder geval gesprekken over te kunnen voeren is mijn inziens de “3 V´s”.

Volume – Vrij grote tot heel grote hoeveelheid
Velocity – Data in motion is een veel grotere uitdaging dan data at rest
Variety – Combinaties van diverse bronnen en formats, structure en unstructured

Wanneer er sprake is van de combinatie van deze 3 kenmerken dan mag je gerust de term big data bezigen en wanneer je als bedrijf hier op wilt kapitaliseren is een goede strategie en een fit-for-purpose Big data platform essentieel.

Login om te reageren
Henri Koppen schreef:

4 april 2012 om 11:09

Sandor werkt bij Oracle en in dit licht moet je dit artikel met enig voorbehoud lezen. Drie van de vijf misvattingen hebben een relatie met Oracle.

2. Big data is Hadoop -> Hadoop is een vorm van een bedreiging voor Oracle
3. Big data gaat alleen om data van social media -> Oracle heeft geen social media
5. Alleen Amazon, Google, Facebook en Yahoo kunnen echt iets met big data –> Zijn concurrenten in enige vorm.

Ik zeg niet dat de punten niet valide zijn, alleen dat je de bron in acht moet nemen.

“Big data” is voor onderzoekers een vorm van inspiratie, maar de driver achter Big data is commercie. Met de opkomst van cloud computing is het kunnen bedienen van Big van enorm strategisch belang, en Oracle heeft toch wat averij opgelopen door zich te lang afzijdig te houden.

De genoemde “misvattingen” staan alle in het teken van commercie en gaan in feite niet over de inhoud…

Login om te reageren
edekkinga schreef:

4 april 2012 om 11:56

Sandor,

Big data is misschien wel grote onzin omdat data een dood ding is, een last als er geen informatie of voordeel uit te halen is. Dat er steeds meer ongestructureerde data komt door alle Internet gerelateerde diensten is nogal een ‘open deur’ waar nu weer een hype van gemaakt wordt. Zoeken naar de speld in de hooiberg is leuk voor sommige ‘oplossing’ schuivers en analisten maar ook weer de kont in de koe kijken. Uiteindelijk gaat het toch om het ontsluiten van informatie waarbij het dus vooral om de verschillende gegevensinterfaces gaat. En de meest belangrijke interface hierin is nog altijd de mens die uiteindelijk op basis van al deze informatie beslissingen neemt. Een rond verkeersbord met rode rand en het cijfer 100 langs de snelweg is bijvoorbeeld nietzeggend als:

1. De betekenis hiervan niet bekend is bij de bestuurder.
2. De snelheid die op dat moment gereden wordt onbekend is.

Gegevens, groot of klein moeten dus vaak verrijkt worden om tot informatie te leiden maar zowel een overvloed als een tekort kunnen nog steeds leiden tot verkeerde beslissingen. Bij bovenstaande voorbeeld zal meer of minder gas geven ook beïnvloed worden door de kosten van de sanctie bij overschrijding van maximale snelheid en de pakkans. En zelfs als zeker is dat er betaald zal moeten worden kan hard rijden nog te billijken zijn doordat er reden achterligt. Het zijn dus de uitzonderingen die de regels bevestigen of deze doen veranderen. Het is dus goed dat je in dit artikel een aantal dingen binnen het juiste kader brengt maar meeste belangrijke blijf ik hierbij missen, namelijk de mens. En Homo Ludens laat zich niet altijd leiden door de regels die bedrijven opleggen zoals we kunnen leren van het ‘kat en muis’ spel dat bijvoorbeeld met het delen van auteursrechtelijk materiaal gedaan wordt.

Maar soms zijn ook grote gestructureerde gegevensverzamelingen nutteloos als de informatie niet duidelijk en overzichtelijk gepresenteerd kan worden. Publiek toegankelijke statistieken van Eurostat, Wereldbank en nog 62 andere bronnen kunnen bijvoorbeeld veel makkelijker verkend worden met Google Public Data Explorer dan zelf telkens queries te maken. Het klikbaar maken en visualiseren zorgt voor een ontsluiting van informatie in zogenaamde infographics die vaak meer zeggen dan 1000 woorden. En wanneer er ook nog relaties gelegd kunnen worden tussen de verschillende gegevens dan kan daaruit soms een schokkend beeld verkregen worden. Internet is nu eenmaal ‘big business’, een grote verzameling diensten waar soms de grootste indexmachines ons helpen om informatie te vinden maar niet altijd.

Nu beperken veel discussie over dit onderwerp zich tot de techniek en gaan voorbij aan bijvoorbeeld de Europese privacyrichtlijn 95/46/EU of Wet Bescherming Persoonsgegevens. Want steeds vaker lijkt het meer om Big Brother te gaan omdat persoonsgegevens verzameld worden uit winstbejag.

Login om te reageren
Erik Leene schreef:

4 april 2012 om 12:07

Beste Sandor,

Ik ben het ten dele met je eens. Als je het woordje BIG uit je tekst weglaat heb je gewoon klassieke BI en DWH. Zijn we al jaren mee bezig met elkaar. En BIG Data en alles wat er bij komt kijken is wel degelijk BIG en daar zou ik twee keer over nadenken voordat je er aan begint, laat staan dat je mogelijk een BIG data probleem hebt. Want die is er in 95% van de gevallen niet. Ik snap niet dat de hele industrie dit aan het aanpraten is. (behalve vanuit commercieel oogpunt). De “gewone” organisaties hebben al moeite genoeg met hun normale Business Intelligence omgevingen en weten daar nauwelijks rendement uit te halen.

Als je als iets wilt met al je nieuwe data, begin eens klein en kijk of je een businesscase kunt maken om er meer mee te doen. Want die beloofde gouden eieren liggen er in veel gevallen niet. Bepaal eerst maar eens of je mag verwachten dat ze er liggen ipv er naar te zoeken.

Login om te reageren
Oscar Wijsman schreef:

4 april 2012 om 14:17

De analyse van Sandor Nieuwenhuijs is naar mijn mening geen typisch verhaal van een vendor en big data is ook geen onzin. De punten die hij noemt zijn zaken die je steeds weer terug ziet komen en waar veel verwarring over is, vooral het laatste jaar.

Het is wel opvallend dat velen steeds weer met dezelfde voorbeelden komen aanzetten van big data in relatie tot het internet, social media en de privacy issues. En roepen dat het gewoon BI is of een data warehouse, dan heb je het dus (nog) niet begrepen. Big data wordt te vaak alleen gerelateerd aan profiling onder de noemer “wij weten wie u bent en wat u wilt”. Terecht dat Sandor dit dus noemt. Big data is ook niet nieuw. Er zijn sectoren die al vele jaren met big data te maken hebben, alleen groeit de hoeveelheid op veel plaatsen in het kwadraat, wordt veel complexer en met veel meer combinaties zodat het nu pas grote vormen aanneemt en in de spotlight komt. Het is geen toeval dat Obama er dit weekend 200 miljoen dollar in heeft gestopt om kennis op te bouwen.

Ook een relatief kleine maar zeer diverse set aan ongestructureerde data kan big data zijn als je daar doorheen moet zoeken. Big data moet niet met ‘big bytes’ verward worden of met big data analytics: de kunst om informatie en kennis te halen uit de diverse vormen van big data. Een vorm van analytics is gebruik maken van Hadoop (in feite het door Google als één van de eersten op big data gehanteerde logisch principe van parallel Mapping en Reducing) maar er zijn meerdere opties. Hadoop is geen tovermiddel en ook niet overal voor te gebruiken. Big data analytics vraagt om een hele gereedschapskist met tools naast inzicht in de context waarin de data is vergaard, dus ook kennis van de business. Het is niet alleen een technisch trucje.

Big data moet je niet zomaar in een RDBMS (willen) stoppen. Bedenk ook dat je big data vaak eerst van ongestructureerd naar gestructureerd moet brengen en wellicht kan het resultaat of halfproduct dan gewoon in een traditionele database. Een mix kan ook, afhankelijk hoe je de DBMS met zijn tabellen (big tables) laat omgaan. Het is dus niet zwart-wit en dat is weer iets wat Sandor volgens mij ook bedoelt met gebruik wat je al hebt.

Een nogal eens vergeten voorbeeld van big data is imaging in alle vormen. Zowel AV in steeds hogere kwaliteit en alle varianten als ook alle medische vormen van imaging is big data. Genetische data is ook big data. Uit de Next Generation DNA sequencers komen vele terabytes per persoon! Medische data maakt wereldwijd, afhankelijk hoe je dit meet, 30-80% uit van alle data die we opslaan. Een groot deel is big data.

Het voorbeeld van het verkeersbord in het commentaar kun je ook anders zien. Als je kunt uitzoeken door vergelijken met bijvoorbeeld allemaal andere borden dat een rond bord met rode rand een verbodsbord is en op basis van de mogelijke betekenissen van het getal wat dat wel en niet kan zijn, dan weet je ook waarvoor het bord bedoeld is al heb je het nog nooit eerder gezien. Je hoeft hier niets te verrijken maar het wel in een context kunnen plaatsen. Deze analyse is uit te voeren met een algoritme wat borden kan herkennen in hun omgeving en daarvan leren. Wat je vervolgens met die informatie doet is wat anders en staat los van de analyse die is uitgevoerd. Dat is volgens mij ook waar Sandor mee afsluit: wat wil je er mee?

Kortom, eens met zijn verhaal. Alleen zijn die kleine 100 miljoen hits in Google wel de losse woorden big en data. Als term zijn het er ‘slechts’ 14 miljoen…

Login om te reageren
Henri Koppen schreef:

4 april 2012 om 14:43

Nouja, 1 reactie kan er toch nog wel bij.

Allereerst, als je rondloopt met misvattingen over “Big Data”, hoe nodig is het dan om dit te verduidelijken? “Big data” is in mijn ogen alleen maar interessant als je de eigenaar bent van “Big data” of toegang hebt tot “Big data”. Als 1 van beide waar is, dan zijn de overige misvattingen al meteen opgelost. Want je weet zelf al direct of jouw big data uit social media komt of niet, of je deze benadert met Hadoop of niet, of de container van deze data van Google, Amazonm, et cetera is of niet en of die data in een relationele database staat of niet. Oja en of de data werkelijk “Big” is qua grootte.

Dus als big data relevant is voor jou, dan kun je deze misvattingen bijna niet hebben.

Als big data niet relevant is voor jou (grote kans), wat is dan de toegevoegde waarde van dit inzicht anders dan een milde interesse?

Wat ik wel zie gebeuren is dat iemand zijn data als big data wordt aangepraat met bijbehorende toolset 🙂

Overigens is het evident dat grote datasets in opkomst zijn. Door cloud computing ontstaan enorme hefbomen die nieuwe uitdagingen creëren. Dat de normale benadering mank gaat lijkt me ook evident.

Maar bijvoorbeeld onderzoek & biologie hebben al langer te maken met grote hoeveelheden ongestructureerde data en momenteel is het nog steeds een uitdaging om daar chocola van te maken. Ik weet zeker dat Oracle een paar zeer nuttige tools in huis heeft om deze uitdaging aan te gaan 🙂

Login om te reageren
Erik Leene schreef:

6 april 2012 om 13:15

Henri, ik kan me helemaal vinden in jou laatste commentaar. Helder en simpel.

Login om te reageren