storage / Opinie
De hype rond de-duplicatie en backup
De-duplicatie blijkt de laatste tijd een bijna magisch woord. Iedereen is er mee bezig. Daarnaast zijn er verschillende overnames aan de gang, zoals de overnamestrijd rond Data Domain door NetApp en EMC.
De-duplicatie van data wordt momenteel meestal geassocieerd met back-up. Daar heeft de-duplicatie ook het meeste effect, aangezien er binnen een back-upcyclus veel identieke informatie zit. Een klein voorbeeld, een klant die zijn backups drie maanden wil bewaren beschikt over dertien kopieën van zijn data. Stel dat zijn omgeving uit vijf terabyte bestaat, dan bewaart hij totaal 65 terabyte aan data (zonder compressie). Indien dit een op tape gebaseerde back-up is, is dit geen probleem. Als dit een disk gebaseerde back-up is, wordt het geheel erg prijzig. Gaan we ervan uit dat binnen elke back-up 95 procent van de informatie identiek is, zal de klant maar 10 terabyte nodig hebben.
Met andere woorden, data de-duplicatie op een back-up target bespaart de aanschaf van disk, waardoor de investering betaalbaar wordt. Het lost echter niet het back-upprobleem op. Data gaat wel naar disk, maar de-duplicatie versnelt de back-up niet.
Het werkelijke probleem is dat we nog steeds alle data een keer per week back-uppen, omdat de back-upapplicaties niet gebouwd zijn om alleen maar de veranderingen te back-uppen. In het bovengenoemde voorbeeld zullen we tijdens de full back-up nog steeds vijf terabyte over het netwerk verplaatsen. Als een back-upserver ongeveer 200GB per uur verplaatst, zal deze er 25 uur nodig hebben voor een full back-up. De enige manier om de back-up te versnellen is dan om gebruik te maken van meerdere back-upservers, waardoor je de load verdeeld. Dit kan erg kostbaar zijn. Voor een klant met 25 terabyte aan data met een back-up window van acht uur betekent dit zestien back-upservers, waarbij het achterliggende disk device zo'n 500MB aan moet kunnen. Over het totaal gezien een leuke oplossing om te verkopen, maar erg prijzig. Daarnaast is de vraag hoever dit schaalt indien de klant groeit met 70 procent per jaar.
Indien we de back-up-,en uiteraard restore-, problematiek effectief willen bestrijden, is het dus efficiënter om minder data over het netwerk te verplaatsen tijdens de back-up. De-duplicatie is hier ook een oplossing, maar dan praten we over source based de-duplicatie. Met andere woorden: we back-uppen en verplaatsen alleen maar data die nooit geback-upped is. Klassieke back-upapplicaties ondersteunen dit niet, maar de nieuwe genereratie oplossingen wel. Denk hierbij aan EMC Avamar, Symantec Puredisk, NetApp SnapVault en OSSV. De-duplicatie wordt hier dus niet ingezet om de kosten van de disk back-up te verminderen, maar om data sneller en efficiënter te back-uppen.
In mijn ogen is met name voor omgevingen met veel data de laatst genoemde oplossing een strategische oplossing die het back-up en restore-probleem voor een langere tijd oplost dan de-duplicatie aan de back-up target zijde.
Aangezien NetApp al zeer geruime tijd beschikt over een zeer mooie en efficiënte oplossing om back-ups op deze manier te adresseren, vraag je je af waarom ze zoveel willen betalen voor Data Domain. Wellicht zijn ze vergeten wat ze in huis hebben.
En juist de backend heeft NetApp: NetApp storage systemen zijn standaard voorzien met de mogelijkheid om te dedupliceren. En ook het backup probleem is met NetApp te adresseren, met SnapVault en OSSV.
Ook de genoemde source based deduplicatie backupapplicaties (hoezo een mond vol) hebben met ditzelfde fenomeen te maken. Hoe zorg je ervoor dat de full system restore efficient kan plaatsvinden als je alleen verschillen hebt. Immers hoe verschillend is een incremental backup ten opzichte van een deduplicated full backup?
Overigens is source based deduplicatie wel belangrijk als de verbinding langzaam is. Denk aan laptops via een VPN verbinding van buiten het bedrijf.
De waarde van deduplicatie waar we in het geval van Data Domain over praten is dus ook vooral dat je de backups langer op de virtual library kunt laten staan. Dus inplaats van voor maar een maand kost het weinig extra om een jaar of meer in de virtual library te houden. Dan is dus vrijwel elke restore direct vanaf het virtual library systeem te doen en dus snel en zonder handmatige acties.
Voor EMC en NetApp reden om flink in de buidel te tasten. EMC had geen eigen technologie maar heeft deze in OEM van een andere leverancier. NetApp heeft wel eigen technologie maar blijkbaar niet goed genoeg bevonden. De andere belangrijke leveranciers HP en IBM hebben ook de technologie in huis. Aangezien het geen monopoly geld is zullen ze daar toch wel heel goed over nagedacht hebben. De toekomst zal het leren.
Met Vriendelijke Groeten,
Denzel
Ik verwacht dat er in de storagewereld zoals SAN nog veel valt te halen betreffende de-duplicatie.
- 08:15 Gemeente Velsen wijkt uit met Isit
- 07:27 Sara centraliseert serverpark Amarantis
- 11:03 Compellent levert Brocade switches
- 10:46 Fujitsu en Symantec breiden samenwerking uit
- 09:35 HDS komt met opslagcapaciteit-dienst
- 02:37 Infrastructuurmanagement en innovatie
- 11:56 Simpana geschikt voor de cloud
- 10:16 Fujitsu integreert deduplicatie in Eternus
- 10:10 Beveiliging is geen issue bij cloud-storage
- 11:44 Brocade combineert TSS-portfolio's
Verwerking en beheer van binnenkomend transactiedata
Multinationale ondernemingen streven naar kostenefficiënte transactieverwerking zonder dat dit ten koste gaat van......
Consultancy Guide 2010
Voor onze jaarlijke Consultancy Guide vroegen we onze Computable-experts waarom je als bedrijf een consultant zou moeten inhuren om je te laten adviseren over storage.
TweeSteden legt fundament voor digitale datagroei
08-01 13:35 In de strijd om de beste business cases van 2009 heeft ook i3 groep een inzending gedaan. Met het project 'TweeSteden ziekenhuis: fundament voor digitale datagroei gelegd'...
Storage praktijkInfotheek profiteert van crisis
03-02 13:47 De Leidse hardwaredienstverlener Infotheek heeft een goed jaar achter de rug. De omzetgroei in 2009 is 22 procent op een totale omzet van 62 miljoen euro. De groei is te danken...
Storage achtergrondInfrastructuurmanagement en innovatie
08-02 02:37 Wat is er gebeurd met de gemiddelde ict-beheerder? Waar is de drang naar het oplossen van complexe vraagstukken binnen het beheer van ict-infrastructuren? Hebben de grote spelers...
Storage opinieCompellent levert Brocade switches
08-02 11:03 Compellent Technologies heeft de Brocade 300 en 5100 san-switches toegevoegd aan zijn productportefeuille voor gevirtualiseerde opslag. Dit biedt volgens Brocade en Compellent...
Storage producten



Hier staan reeds back-up servers te zoemen, vaak met dure software licenties erop. De beheerders kunnen makkelijker overschakelen op een deduplicatie oplossing als deze integreert in de bestaande omgeving.
Hoewel EMC hier een goede oplossing voor heeft gevonden door Avamar te integreren in Networker, is dat voor de NetApp oplossing niet zo eenvoudig.
Door nu ook een back-end oplossing in huis te hebben, kan NetApp zowel zijn bestaande klantenkring bedienen met SnapVault, als zijn klantenkring uitbreiden met hardware oplossingen.