storage / Opinie
De hype rond de-duplicatie en backup
De-duplicatie blijkt de laatste tijd een bijna magisch woord. Iedereen is er mee bezig. Daarnaast zijn er verschillende overnames aan de gang, zoals de overnamestrijd rond Data Domain door NetApp en EMC.
De-duplicatie van data wordt momenteel meestal geassocieerd met back-up. Daar heeft de-duplicatie ook het meeste effect, aangezien er binnen een back-upcyclus veel identieke informatie zit. Een klein voorbeeld, een klant die zijn backups drie maanden wil bewaren beschikt over dertien kopieën van zijn data. Stel dat zijn omgeving uit vijf terabyte bestaat, dan bewaart hij totaal 65 terabyte aan data (zonder compressie). Indien dit een op tape gebaseerde back-up is, is dit geen probleem. Als dit een disk gebaseerde back-up is, wordt het geheel erg prijzig. Gaan we ervan uit dat binnen elke back-up 95 procent van de informatie identiek is, zal de klant maar 10 terabyte nodig hebben.
Met andere woorden, data de-duplicatie op een back-up target bespaart de aanschaf van disk, waardoor de investering betaalbaar wordt. Het lost echter niet het back-upprobleem op. Data gaat wel naar disk, maar de-duplicatie versnelt de back-up niet.
Het werkelijke probleem is dat we nog steeds alle data een keer per week back-uppen, omdat de back-upapplicaties niet gebouwd zijn om alleen maar de veranderingen te back-uppen. In het bovengenoemde voorbeeld zullen we tijdens de full back-up nog steeds vijf terabyte over het netwerk verplaatsen. Als een back-upserver ongeveer 200GB per uur verplaatst, zal deze er 25 uur nodig hebben voor een full back-up. De enige manier om de back-up te versnellen is dan om gebruik te maken van meerdere back-upservers, waardoor je de load verdeeld. Dit kan erg kostbaar zijn. Voor een klant met 25 terabyte aan data met een back-up window van acht uur betekent dit zestien back-upservers, waarbij het achterliggende disk device zo'n 500MB aan moet kunnen. Over het totaal gezien een leuke oplossing om te verkopen, maar erg prijzig. Daarnaast is de vraag hoever dit schaalt indien de klant groeit met 70 procent per jaar.
Indien we de back-up-,en uiteraard restore-, problematiek effectief willen bestrijden, is het dus efficiënter om minder data over het netwerk te verplaatsen tijdens de back-up. De-duplicatie is hier ook een oplossing, maar dan praten we over source based de-duplicatie. Met andere woorden: we back-uppen en verplaatsen alleen maar data die nooit geback-upped is. Klassieke back-upapplicaties ondersteunen dit niet, maar de nieuwe genereratie oplossingen wel. Denk hierbij aan EMC Avamar, Symantec Puredisk, NetApp SnapVault en OSSV. De-duplicatie wordt hier dus niet ingezet om de kosten van de disk back-up te verminderen, maar om data sneller en efficiënter te back-uppen.
In mijn ogen is met name voor omgevingen met veel data de laatst genoemde oplossing een strategische oplossing die het back-up en restore-probleem voor een langere tijd oplost dan de-duplicatie aan de back-up target zijde.
Aangezien NetApp al zeer geruime tijd beschikt over een zeer mooie en efficiënte oplossing om back-ups op deze manier te adresseren, vraag je je af waarom ze zoveel willen betalen voor Data Domain. Wellicht zijn ze vergeten wat ze in huis hebben.
En juist de backend heeft NetApp: NetApp storage systemen zijn standaard voorzien met de mogelijkheid om te dedupliceren. En ook het backup probleem is met NetApp te adresseren, met SnapVault en OSSV.
Ook de genoemde source based deduplicatie backupapplicaties (hoezo een mond vol) hebben met ditzelfde fenomeen te maken. Hoe zorg je ervoor dat de full system restore efficient kan plaatsvinden als je alleen verschillen hebt. Immers hoe verschillend is een incremental backup ten opzichte van een deduplicated full backup?
Overigens is source based deduplicatie wel belangrijk als de verbinding langzaam is. Denk aan laptops via een VPN verbinding van buiten het bedrijf.
De waarde van deduplicatie waar we in het geval van Data Domain over praten is dus ook vooral dat je de backups langer op de virtual library kunt laten staan. Dus inplaats van voor maar een maand kost het weinig extra om een jaar of meer in de virtual library te houden. Dan is dus vrijwel elke restore direct vanaf het virtual library systeem te doen en dus snel en zonder handmatige acties.
Voor EMC en NetApp reden om flink in de buidel te tasten. EMC had geen eigen technologie maar heeft deze in OEM van een andere leverancier. NetApp heeft wel eigen technologie maar blijkbaar niet goed genoeg bevonden. De andere belangrijke leveranciers HP en IBM hebben ook de technologie in huis. Aangezien het geen monopoly geld is zullen ze daar toch wel heel goed over nagedacht hebben. De toekomst zal het leren.
Met Vriendelijke Groeten,
Denzel
Ik verwacht dat er in de storagewereld zoals SAN nog veel valt te halen betreffende de-duplicatie.
- 11:43 Dell levert server met Symantec software
- 09:25 Sun-resellers positief over Oracle-combinatie
- 09:14 Consolidatie en virtualisatie prioriteit voor...
- 14:34 Nexenta Systems introduceert NexentaStor 3.0
- 10:30 Symantec Brightmail Gateway 9.0 en Data Insight
- 11:34 Webtool APC analyseert energieverbruik datacenters
- 18:57 Tien opslagtips voor 2010
- 15:59 NetApp biedt nieuwe cloud-diensten
- 11:17 Nieuwe EMC SourceOne Email Supervisor
- 09:41 Markt voor opslagsoftware groeit een beetje
Duurzame digitale oplossing voor Stadsarchief Amsterdam
In het Amsterdamse stadsarchief, met 35 km archieven en ruim 8 miljoen digitale archiefstukken het grootste ter wereld,......
Consultancy Guide 2010
Voor onze jaarlijke Consultancy Guide vroegen we onze Computable-experts waarom je als bedrijf een consultant zou moeten inhuren om je te laten adviseren over storage.
Dell levert server met Symantec software
16-03 11:43 Dell introduceert de PowerVault DL2100 Powered by Symantec Backup Exec 2010. Dit is een schijfgebaseerde back-up- en hersteloplossing voor het mkb met deduplicatietechnologie die...
Storage productenTweeSteden legt fundament voor digitale datagroei
08-01 13:35 In de strijd om de beste business cases van 2009 heeft ook i3 groep een inzending gedaan. Met het project 'TweeSteden ziekenhuis: fundament voor digitale datagroei gelegd'...
Storage praktijkFiscus betaalt mee aan nieuwe UPS
22-02 11:41 Bedrijven die een nieuw energiezuiniger ups-systeem voor hun noodstroomvoorziening aanschaffen, kunnen bij de fiscus een beroep doen op belastingaftrek. Zulke ups-en vallen...
Storage achtergrondTien opslagtips voor 2010
10-03 18:57 Terwijl wereldwijd herstel van de economie nog onzeker lijkt, blijft de hoeveelheid data in rap tempo toenemen in 2010. Aan ict-afdelingen de taak om deze exponentiële groei van...
Storage opinie


Hier staan reeds back-up servers te zoemen, vaak met dure software licenties erop. De beheerders kunnen makkelijker overschakelen op een deduplicatie oplossing als deze integreert in de bestaande omgeving.
Hoewel EMC hier een goede oplossing voor heeft gevonden door Avamar te integreren in Networker, is dat voor de NetApp oplossing niet zo eenvoudig.
Door nu ook een back-end oplossing in huis te hebben, kan NetApp zowel zijn bestaande klantenkring bedienen met SnapVault, als zijn klantenkring uitbreiden met hardware oplossingen.