Managed hosting door True
Deze opinie is van een externe deskundige. De inhoud vertegenwoordigt dus niet noodzakelijk het gedachtegoed van de redactie.

Denken over data doe je niet achteraf

 

Computable Expert

drs. Marc van Neerven
CTO, Neerventure B.V.. Expert van Computable voor het topic Start-ups.

In deze blog wil ik aandacht vragen voor mijn visie op (big) data, business intelligence en het denken over de eigen gegevensstructuren.

Als ik mijn LinkedIn nieuwsoverzicht bekijk, valt iedere dag weer op hoeveel aandacht er is voor big data analytics, de kunst van het inzichten verkrijgen uit grote hoeveelheden diverse en ongestructureerde data. Natuurlijk is het zo dat, wanneer u zit met gigantische hoeveelheden data, en u geen idee heeft waar te beginnen, het opzetten van een proces om eindelijk inzichten te kunnen vergaren een valide keuze lijkt. Ik heb overigens diep respect voor die tovenaars die machine learning methodieken toepassen en zo inzichten kunnen destilleren uit die enorme data lakes.

Neergang van data-centrisch denken

" In de afgelopen jaren heb ik meer mensen over big data analytics horen praten dan over een degelijke data architectuur."

De huidige trend om artificial intelligence (ai), machine learning (ml) of andere zogenaamde slimme algoritmes te gebruiken om inzichten te verkrijgen uit data, hoe nuttig ook, gaat me soms toch ietsje te ver. In de afgelopen jaren, waarin ik als cto startups en scaleups begeleid, heb ik meer mensen over big data analytics horen praten dan over een degelijke data architectuur. En dat kun je een probleem noemen...

Ten tweede signaleer ik al langer een trend waarin data weg geabstraheerd wordt van de dagelijkse praktijk van developers. Zie de populariteit van Microsoft Entity Framework (EF) en andere object role moddeling (orm)-frameworks, die developers het idee geven dat data onbelangrijk of in ieder geval secundair is en focus leggen op zogenaamd 'code first' orm-mapping.

Ten derde: de laatste jaren kom ik steeds meer developers tegen die de overstap hebben gemaakt naar NoSQL databases, waar je niet eens hoeft na te denken over het structureren van je data. Waarom zou je ook? De cloud is immers oneindig, dus waarom zou je je bezig houden met structureren, normaliseren en optimaliseren van data opslag?

Data weer belangrijk maken

Als iemand die meer dan 25 jaar in software development zit, denk ik toch niet dat ik alleen ouderwets ben als ik zeg dat een solide architectuur ook begint bij het nadenken over de data, en dat het zeker zin heeft uw datastructuren sterk te optimaliseren voor het intelligent kunnen doorzoeken, zonder dat daar externe oplossingen als data mining of fulltext search voor nodig zijn.

Als u een startup bent, en uw data is onlosmakelijk verbonden met uw intellectual property (ip), zou u dus tijd moeten besteden aan het opzetten van een degelijke data architectuur. Chocola maken van alles wat u aan data verzamelt, gaat echt een stuk makkelijker als er vooraf over nagedacht is.

Je data centraal stellen, echt de tijd nemen om de architectuur van uw data domein op te zetten, betekent ook dat u kijkt naar de business propositie en data scenario's, precies zoals u dat doet met functionele requirements. Uw data bevat tenslotte het goud waar u naar op zoek bent. En het goud voor het oprapen hebben is toch handiger dan de weg ernaartoe te moeten graven?

Dit artikel is een (vrije) vertaling van mijn artikel 'Data intelligence is not an afterthought' op Medium.com.

Dit artikel is afkomstig van Computable.nl (https://www.computable.nl/artikel/6358915). © Jaarbeurs IT Media.

?

 

Reacties

Goed artikel :O)
Wat ik telkens en stelselmatig niet tegen kom is de duidelijke differentiatie tussen bedrijfs specifieke gegenereerde data en generiek beschikbare data stromen, lees, al de rest via het www. Ik blijf eenvoudig warsvchuwen voor die twee werelden namelijk dat je met corporate big data heel precies en gericht kunt werken met geproduceerde big data en die andere oceaan van data, met enorme terughoudendheid zult moeten benaderen.

Vervuilde data
Het is eenmaal een gegeven dat ruwweg en minstens 40% van al die 'generiek beschikbare' data met van alles en nogmaals is vervuilt. Die vervuiling is dusdanig dat je dat met de beste wil van de wereld, ook niet met ai, kunt differentieren en klasseren. Natuurlijk kun je doublures voorgeprogrammeerd filteren, natuurlijk kun je tot op bepaalde hoogte criminele handelingen zoals identteits diefstal, tot op een bepaalde hoogte duiden.

Heb je het over betrouwbaarheid van tal van commerciele data, commerciele uitingen, voorgekookte surveys, misrepresentatie, opzettelijk vervalsing van feiten, fake nieuws, hypes, voorgekookte voorstellingen van zaken als ogenaamd 'feitelijk' gepresenteerd, of de tal van (semi) wetenschappelijke voorstellingn van zaken, gewoon even als voorbeeld, kan ai je (nog) niet van dienst zijn laat staan dat je (zakelijk) het risico zou willen lopen te stellen dat je gebruik gaat maken van die enorme 'gemelleerde' data.

uiteraard zijn er nu heel veel commerciele geesten die voorgeven, roepen, dat dat allang 'getackeld' is, ik zou mezelf daat zakelijk/professioneel niet aan branden.

Jouw reactie


Je bent niet ingelogd. Je kunt als gast reageren, maar dan wordt je reactie pas zichtbaar na goedkeuring door de redactie. Om je reactie direct geplaatst te krijgen, moet je eerst rechtsboven inloggen of je registreren

Je naam ontbreekt
Je e-mailadres ontbreekt
Je reactie ontbreekt

Stuur door

Stuur dit artikel door

Je naam ontbreekt
Je e-mailadres ontbreekt
De naam van de ontvanger ontbreekt
Het e-mailadres van de ontvanger ontbreekt

×
×
Wilt u dagelijks op de hoogte worden gehouden van het laatste ict-nieuws, achtergronden en opinie?
Abonneer uzelf op onze gratis nieuwsbrief.