storage / Opinie
Slimmere data opslag: De-duplicatie
We weten allemaal wel dat onze informatie zich eigenlijk gedraagt als een virus; het heeft namelijk de merkwaardige eigenschap zich ongemerkt te vermenigvuldigen. Ook kleine mutaties zijn veel voorkomend. Om een voorbeeld te geven: een powerpoint presentatie wordt vaak meermalen opgeslagen in diverse systemen en formaten, alleen al door het feit dat het doorgaans naar vele personen wordt rondgestuurd en vervolgens door de ontvanger op diverse manieren wordt opgeslagen: zowel in de mailbox, als in het lokale mail archief, alsook als los bestand (saved attachment) op de home directory. De eigenschap zich te muteren toont zich in dit voorbeeld doordat mensen vaak de presentatie even openen en - wellicht zonder wijzigingen - weer opslaan. Het bestand is nu echter wel (zij het minimaal) gewijzigd (denk alleen al aan het veld "last modified" en "last accessed" in de properties). Ook als alleen de titel wordt aangepast of wat extra tekst wordt ingevoegd zijn de wijzigingen minimaal - maar er ontstaat wel een heel nieuw, uniek bestand.
Als we de powerpoint in zijn vele hoedanigheden dagelijks moeten backuppen, blijkt al snel dat de totale opslag capaciteit die nodig is vele malen groter is dan het oorspronkelijke bestand zelf. Overigens blijkt ook nog eens dat binnen het bestand herhaalde patronen van data voorkomen - compressie algoritmes (zoals ZIP) maken hier al enigszins gebruik van en vervangen herhalende patronen die vlak bij elkaar liggen door een verkorte code (naast andere slimme trucs om de omvang te verkleinen). Dubbele data aan het begin en eind van het bestand is lastiger voor compressie - vandaar dat de compressie factor vaak niet hoger is dan zo’n 50 à 80% onder gunstige omstandigheden (platte tekst). Dubbele brokken data in verschillende bestanden - of zelfs in verschillende applicaties - zijn al helemaal niet door compressie algorithmes te herkennen.
Echter sinds enige tijd zijn er verschillende algorithmes ontwikkeld die in staat zijn gedupliceerde brokjes data te identificeren en te reduceren tot één. In ons voorbeeld met de veelvuldig gekopieerde powerpoint kun je al aanvoelen dat dit enorm scheelt in de hoeveelheid benodigde capaciteit. De slimste algorithmes zijn ook in staat dubbele data op verschillende fysieke of virtuele servers te herkennen - bijvoorbeeld door ze te vergelijken tegen een centrale de-duplicatie database - en onafhankelijk van het formaat van de data (zoals powerpoint bestand, exchange database of PST file).
Wel is deze techniek vooralsnog het meest geschikt voor backup- en restore toepassingen, omdat de reconstructie van een origineel bestand uit stukjes unieke data nu eenmaal tijd kost en zich dus minder goed leent voor online bestanden of objecten waarbij snelle toegang nodig is - hoewel ook op dat vlak volop onderzoek en ontwikkeling wordt gedaan. Met name de combinatie met "thin provisioning" biedt veel toekomstige nieuwe mogelijkheden.
Van data die is verwijderd vanuit een applicatie blijft namelijk vaak de bestandsstructuur fysiek ergens op disk achterwege en kan derhalve niet zomaar worden teruggegeven aan een vrije data pool (een storage systeem is immers niet in staat te weten of de flarden van een bestand zijn gewist of nog ergens bij het bestand horen). Denk maar aan de mogelijkheid van "undelete" of de "forensic" tools die rechercheurs tot hun beschikking hebben om gewiste data van een PC terug te toveren.
De-duplicatie heeft de potentie dit probleem op te lossen: je kunt bijvoorbeeld alle vrijgekomen ruimte in een bestandssysteem overschrijven met bijvoorbeeld alleen maar nullen - waarna de-duplicatie software alle identieke blokken reduceert tot één en de vrijgekomen disk ruimte weer beschikbaar stelt voor andere toepassingen. Aanpassingen van Unix- Linux- en Windows bestandssystemen om hier slimmer mee om te gaan zullen niet uitblijven en hetzelfde geldt wellicht voor relationele database systemen.
Mijn verwachting is dat de-duplicatie één van de meest interessante storage gerelateerde onderwerpen wordt van dit jaar en de komende jaren; de potentiele kosten reductie in een backup omgeving is nu al enorm, en het volwassen worden van de software tezamen met integratie van andere nieuwe technologie maken dat we nog slechts het tipje van de sluier hebben opgelicht.
Een paar jaar geleden wat online expansion ook nog niet mogelijk en dat is tegenwoordig in vrijwel alle operating systems aanwezig. Nu de HP EVA's dat kunnen met Windows en HP-UX zullen de andere operating systems op termijn wel volgen.
Remko Westrik
Manager HP StorageWork
Hewlett-Packard Nederland
- 15:54 Tot 500 GB 2,5-ich schijf van Freecom
- 09:27 Is storage recessieproof?
- 15:22 Hitachi: harde schijven zijn niet passé
- 11:35 Markt voor geheugenchips zakt in
- 15:18 Hitachi haakt aan op SSD Intel
- 13:13 HP services platform voor storage virtualisatie
- 09:29 SSD komt langzaam naar servers
- 12:04 Multimedia harddisk met iPod aansluiting
- 12:01 Kingston DataTraveler 150 met 64 GB
- 10:39 Micron toont supersnel SSD
Data-opslag 'disaster-proof' maken met virtualisatie
Het virtualiseren van de IT-infrastructuur kan van grote waarde zijn bij rampen als uitvallende systemen. Van de coverage voor meer applicaties en een kortere recovery time profiteert een bedrijf direct, zo blijkt uit deze whitepaper.... Download nu
Checklist SAN: impact onderdelen op betrouwbaarheid
Een SAN bestaat uit verschillende onderdelen, maar welk geheel vormt nu de betrouwbaarste combinatie? In deze checklist worden alle belangrijke factoren op een rij gezet bij het samenstellen van een betrouwbare SAN.... Download nu
Meer Storage whitepapersComputable Events Storage
Computable organiseert in 2008 weer verschillende events met praktijkgerichte informatie over actuele onderwerpen in de ICT:
Tot 500 GB 2,5-ich schijf van Freecom
04-12 15:54 Freecom komt met de Mobile Drive XXS, een kleine externe harde schijf met maximaal 500 GB opslagcapaciteit. De 2.5-inch schijfeenheid is met nauwelijks 10 centimeter lengte net...
Meer storage productenDoetinchem en Oude IJsselstreek samen in opslag
30-07 14:54 De gemeente Doetinchem telt bijna 57.000 inwoners en vervult een centrumfunctie op maatschappelijk, cultureel en economisch terrein in de Achterhoek. Gemeente Oude IJsselstreek...
Meer storage praktijkSSD komt langzaam naar servers
01-12 09:29 Ssd's (solid state drives) komen gestaag naar de markt voor serieuze opslagsystemen, zoals servers. Micron brengt zijn supersnelle prototype binnen een jaar op de markt, maar...
Meer storage achtergrondIs storage recessieproof?
04-12 09:27 In de huidige tijd van recessie en kredietcrisis borrelt te vraag natuurlijk op wat deze voor invloed hebben op Storage, de markt en de budgetten. Laten we eens naar de behoeften,...
Meer storage opinieBekijk de leveranciers op het gebied van Storage.

