CWI ontwikkelt Data Cyclotron-architectuur

Onderzoekers van het Centrum Wiskunde & Informatica (CWI) in Amsterdam zetten vraagtekens bij het wijdverspreide idee dat het netwerk de bottleneck bij big data is. Ze ontwikkelden een nieuwe database-architectuur die de meest relevante data continu door een ringnetwerk van een groot aantal machines rondpompt. Deze experimentele Data Cyclotron-architectuur is sneller en heeft een hogere doorvoersnelheid dan systemen die data van een traditioneel schijfsysteem lezen en schrijven. CWI-onderzoeker Rómulo Gonçalves promoveert vrijdag 22 maart 2013 op zijn onderzoek naar Data Cyclotron aan de Universiteit van Amsterdam.

Met moderne hardware kan data veel sneller door een netwerk verstuurd worden dan van een schijf gelezen. De onderzoekers benutten deze trend om een snelle en efficiënte database-architectuur te kunnen maken. Ze compenseren de geheugenbeperking van een losse machine door het geheugen van alle computers in een ring te verbinden en dit als snel opslagmedium te gebruiken.

De meest relevante data staat niet meer op één centrale locatie maar wordt constant door de netwerkring gepompt. Gezien een vuistregel voor databasesystemen die stelt dat 80 procent van de query’s uitgevoerd kan worden met slechts 20 procent van de totale hoeveelheid data, is de relevante data nu veel sneller beschikbaar. Daarnaast kan elke computer in het netwerk van de Data Cyclotron-architectuur profiteren van deze grote datastroom.

Datafragmenten

Om te bepalen wat de meest gebruikte data is, houdt het systeem een score bij van het aantal opvragingen per datafragment. Deze techniek is gebaseerd op een datastroom die dynamisch is samengesteld uit de datafragmenten met de hoogste scores. Hoe groot de set is hangt af van de vraag naar de data in het netwerk, zodat de capaciteit altijd optimaal wordt benut.

De Data Cyclotron is met name geschikt voor business analytics, data mining en web-log tracing. De Data Cyclotron-architectuur is ontwikkeld op de SciLens-machine, een grootschalig experimenteel databaseplatform dat sinds 2011 op het CWI in gebruik is.

Big data-onderzoek is onderdeel van onderzoeksthema Informatie van het CWI. Deze onderzoekslijn ontwikkelt methoden en technologieën om betekenisvolle informatie te genereren uit grote hoeveelheden data.