Download whitepapers, case studies
en onderzoeken over ICT-onderwerpen
Computable IT Knowledge Base
  Dagelijks het laatste
ICT-nieuws in je inbox?
Computable e-mail nieuwsbrief

storage / Opinie

06-03-2008 07:14 | Door Bart Sjerps | Tags: Backup, Opslag, Data | Er zijn 2 reacties op dit artikel | Permalink

Slimmere data opslag: De-duplicatie

Bart Sjerps

We weten allemaal wel dat onze informatie zich eigenlijk gedraagt als een virus; het heeft namelijk de merkwaardige eigenschap zich ongemerkt te vermenigvuldigen. Ook kleine mutaties zijn veel voorkomend. Om een voorbeeld te geven: een powerpoint presentatie wordt vaak meermalen opgeslagen in diverse systemen en formaten, alleen al door het feit dat het doorgaans naar vele personen wordt rondgestuurd en vervolgens door de ontvanger op diverse manieren wordt opgeslagen: zowel in de mailbox, als in het lokale mail archief, alsook als los bestand (saved attachment) op de home directory. De eigenschap zich te muteren toont zich in dit voorbeeld doordat mensen vaak de presentatie even openen en - wellicht zonder wijzigingen - weer opslaan. Het bestand is nu echter wel (zij het minimaal) gewijzigd (denk alleen al aan het veld "last modified" en "last accessed" in de properties). Ook als alleen de titel wordt aangepast of wat extra tekst wordt ingevoegd zijn de wijzigingen minimaal - maar er ontstaat wel een heel nieuw, uniek bestand.

Als we de powerpoint in zijn vele hoedanigheden dagelijks moeten backuppen, blijkt al snel dat de totale opslag capaciteit die nodig is vele malen groter is dan het oorspronkelijke bestand zelf. Overigens blijkt ook nog eens dat binnen het bestand herhaalde patronen van data voorkomen - compressie algoritmes (zoals ZIP) maken hier al enigszins gebruik van en vervangen herhalende patronen die vlak bij elkaar liggen door een verkorte code (naast andere slimme trucs om de omvang te verkleinen). Dubbele data aan het begin en eind van het bestand is lastiger voor compressie - vandaar dat de compressie factor vaak niet hoger is dan zo’n 50 à 80% onder gunstige omstandigheden (platte tekst). Dubbele brokken data in verschillende bestanden - of zelfs in verschillende applicaties - zijn al helemaal niet door compressie algorithmes te herkennen.

Echter sinds enige tijd zijn er verschillende algorithmes ontwikkeld die in staat zijn gedupliceerde brokjes data te identificeren en te reduceren tot één. In ons voorbeeld met de veelvuldig gekopieerde powerpoint kun je al aanvoelen dat dit enorm scheelt in de hoeveelheid benodigde capaciteit. De slimste algorithmes zijn ook in staat dubbele data op verschillende fysieke of virtuele servers te herkennen - bijvoorbeeld door ze te vergelijken tegen een centrale de-duplicatie database - en onafhankelijk van het formaat van de data (zoals powerpoint bestand, exchange database of PST file).

Wel is deze techniek vooralsnog het meest geschikt voor backup- en restore toepassingen, omdat de reconstructie van een origineel bestand uit stukjes unieke data nu eenmaal tijd kost en zich dus minder goed leent voor online bestanden of objecten waarbij snelle toegang nodig is - hoewel ook op dat vlak volop onderzoek en ontwikkeling wordt gedaan. Met name de combinatie met "thin provisioning" biedt veel toekomstige nieuwe mogelijkheden.

Van data die is verwijderd vanuit een applicatie blijft namelijk vaak de bestandsstructuur fysiek ergens op disk achterwege en kan derhalve niet zomaar worden teruggegeven aan een vrije data pool (een storage systeem is immers niet in staat te weten of de flarden van een bestand zijn gewist of nog ergens bij het bestand horen). Denk maar aan de mogelijkheid van "undelete" of de "forensic" tools die rechercheurs tot hun beschikking hebben om gewiste data van een PC terug te toveren.

De-duplicatie heeft de potentie dit probleem op te lossen: je kunt bijvoorbeeld alle vrijgekomen ruimte in een bestandssysteem overschrijven met bijvoorbeeld alleen maar nullen - waarna de-duplicatie software alle identieke blokken reduceert tot één en de vrijgekomen disk ruimte weer beschikbaar stelt voor andere toepassingen. Aanpassingen van Unix- Linux- en Windows bestandssystemen om hier slimmer mee om te gaan zullen niet uitblijven en hetzelfde geldt wellicht voor relationele database systemen.

Mijn verwachting is dat de-duplicatie één van de meest interessante storage gerelateerde onderwerpen wordt van dit jaar en de komende jaren; de potentiele kosten reductie in een backup omgeving is nu al enorm, en het volwassen worden van de software tezamen met integratie van andere nieuwe technologie maken dat we nog slechts het tipje van de sluier hebben opgelicht.

bekijk reacties (2) print stuur door
Reacties op dit artikel
Frank van der Lecq, 15-03-2008 0:35
Het is inderdaad zo dat deduplicatie een frisse technologie is in de storagemarkt. Tot voor kort was innovatie vooral gericht op het vergroten van schaalbaarheid en het op kunnen vangen van datagroei, zonder dat er kritisch werd gekeken naar de data die eigenlijk wordt opgeslagen. Deduplicatie is een eerste serieuze stap om data-opslag terug te dringen. Organisaties die deduplicatie willen inzetten om hun back-up volumes te verkleinen, doen er goed aan om hun eigenlijke probleem goed te onderzoeken. Dit omdat er verschillende manieren zijn om deduplicatie toe te passen; er zijn oplossingen die de data al op de host ontdubbelen, zodat er minder data over het netwerk wordt verstuurd. Zeker in netwerken die te maken hebben met forse netwerkbelasting kan dat een groot voordeel opleveren. Andere oplossingen verzamelen data op een appliance, alwaar de deduplicatie plaatsvindt. Appliance deduplicatie wordt door veel leveranciers gezien als een technologie die een hogere compressie mogelijk maakt, maar vermindert de data die over het locale netwerk wordt verstuurd niet. Zo hebben beide oplossingen hun voors en tegens. Voor organisaties die deduplicatie overwegen geldt dus dat ze goed moeten afwegen wat het hoofddoel is.
Remko Westrik, 09-05-2008 17:02
Inmiddels zijn er wel al de eerste oplossingen die vrijgekomen ruimte teruggeven aan de vrije pool. HP StorageWorks EVA Dynamic Capacity Management software incombinatie met de HP StorageWorks EVA en Windows 2008 en/of HP-UX 11.23 biedt deze functionaliteit.
 
Een paar jaar geleden wat online expansion ook nog niet mogelijk en dat is tegenwoordig in vrijwel alle operating systems aanwezig. Nu de HP EVA's dat kunnen met Windows en HP-UX zullen de andere operating systems op termijn wel volgen.
 
Remko Westrik
Manager HP StorageWork
Hewlett-Packard Nederland
rssMeer Storage
Storage Whitepapers

Data-opslag 'disaster-proof' maken met virtualisatie

Het virtualiseren van de IT-infrastructuur kan van grote waarde zijn bij rampen als uitvallende systemen. Van de coverage voor meer applicaties en een kortere recovery time profiteert een bedrijf direct, zo blijkt uit deze whitepaper.... Download nu

Checklist SAN: impact onderdelen op betrouwbaarheid

Een SAN bestaat uit verschillende onderdelen, maar welk geheel vormt nu de betrouwbaarste combinatie? In deze checklist worden alle belangrijke factoren op een rij gezet bij het samenstellen van een betrouwbare SAN.... Download nu

Meer Storage whitepapers

Computable Events Storage

event

Computable organiseert in 2008 weer verschillende events met praktijkgerichte informatie over actuele onderwerpen in de ICT:

Storage Producten

Tot 500 GB 2,5-ich schijf van Freecom

04-12 15:54   Freecom komt met de Mobile Drive XXS, een kleine externe harde schijf met maximaal 500 GB opslagcapaciteit. De 2.5-inch schijfeenheid is met nauwelijks 10 centimeter lengte net...

Meer storage producten
Storage Praktijk

Doetinchem en Oude IJsselstreek samen in opslag

30-07 14:54   De gemeente Doetinchem telt bijna 57.000 inwoners en vervult een centrumfunctie op maatschappelijk, cultureel en economisch terrein in de Achterhoek. Gemeente Oude IJsselstreek...

Meer storage praktijk
Storage Achtergrond

SSD komt langzaam naar servers

01-12 09:29   Ssd's (solid state drives) komen gestaag naar de markt voor serieuze opslagsystemen, zoals servers. Micron brengt zijn supersnelle prototype binnen een jaar op de markt, maar...

Meer storage achtergrond
Storage Opinie

Is storage recessieproof?

04-12 09:27   In de huidige tijd van recessie en kredietcrisis borrelt te vraag natuurlijk op wat deze voor invloed hebben op Storage, de markt en de budgetten. Laten we eens naar de behoeften,...

Meer storage opinie
IT Directory

Bekijk de leveranciers op het gebied van Storage.