Met moderne hardware kan data veel sneller door een netwerk verstuurd worden dan van een schijf gelezen. De onderzoekers benutten deze trend om een snelle en efficiënte database-architectuur te kunnen maken. Ze compenseren de geheugenbeperking van een losse machine door het geheugen van alle computers in een ring te verbinden en dit als snel opslagmedium te gebruiken.
De meest relevante data staat niet meer op één centrale locatie maar wordt constant door de netwerkring gepompt. Gezien een vuistregel voor databasesystemen die stelt dat 80 procent van de query’s uitgevoerd kan worden met slechts 20 procent van de totale hoeveelheid data, is de relevante data nu veel sneller beschikbaar. Daarnaast kan elke computer in het netwerk van de Data Cyclotron-architectuur profiteren van deze grote datastroom.
Datafragmenten
Om te bepalen wat de meest gebruikte data is, houdt het systeem een score bij van het aantal opvragingen per datafragment. Deze techniek is gebaseerd op een datastroom die dynamisch is samengesteld uit de datafragmenten met de hoogste scores. Hoe groot de set is hangt af van de vraag naar de data in het netwerk, zodat de capaciteit altijd optimaal wordt benut.
De Data Cyclotron is met name geschikt voor business analytics, data mining en web-log tracing. De Data Cyclotron-architectuur is ontwikkeld op de SciLens-machine, een grootschalig experimenteel databaseplatform dat sinds 2011 op het CWI in gebruik is.
Big data-onderzoek is onderdeel van onderzoeksthema Informatie van het CWI. Deze onderzoekslijn ontwikkelt methoden en technologieën om betekenisvolle informatie te genereren uit grote hoeveelheden data.
Om te kunnen beoordelen moet u ingelogd zijn: