Download whitepapers, case studies
en onderzoeken over ICT-onderwerpen
Computable IT Knowledge Base
  Dagelijks het laatste
ICT-nieuws in je inbox?
Computable e-mail nieuwsbrief

storage / Achtergrond

07-04-2008 14:44 | Door Robbert Hoeffnagel | Er zijn nog geen reacties op dit artikel | Permalink

Voordeel data-deduplicatie vaak zwaar overtrokken

Rationele aanpak vereist voor ontdubbeling storage

toetsenbord hand

Veel data wordt dubbel ingevoerd, opgeslagen en dus bewaard.

Veel data wordt dubbel ingevoerd, opgeslagen en dus bewaard.

Software voor het dedupliceren van data kan interessante voordelen opleveren in een storage-omgeving. De claims die aanbieders hierbij hanteren zijn vaak echter nogal overdreven. Het is van groot belang om in de rekensommen alle relevante factoren mee te nemen en te testen op basis van eigen datasets.

Powerpoint presentatie

Powerpoint-presentaties, zoals deze van Microsoft-topman Eric Rudder, worden rondgemaild en dus dubbel opgeslagen.

Powerpoint-presentaties, zoals deze van Microsoft-topman Eric Rudder, worden rondgemaild en dus dubbel opgeslagen.

Het dedupliceren van data staat de laatste jaren flink in de belangstelling. De hoeveelheid informatie die bedrijven opslaan groeit exponentieel, maar tegelijkertijd is duidelijk dat er zich binnen die totale hoeveelheid vastgelegde informatie veel dubbelingen voordoen. Het bekende voorbeeld is uiteraard de Powerpoint-presentatie die naar tien of twaalf mensen binnen de organisatie is gemaild en die in even zoveel mailboxen wordt opgeslagen. Zou het met technologie mogelijk zijn om die tien of twaalf kopieën te ontdekken, dan is het vervolgens uiteraard voldoende om nog slechts één kopie vast te leggen en in de overige mailboxen uitsluitend nog een pointer naar dat ene bestand te plaatsen.

Besparen

storage groei

Intel-topman Pat Gelsinger spiegelt de enorme datagroei voor.

Intel-topman Pat Gelsinger spiegelt de enorme datagroei voor.

Op die manier kan flink bespaard worden op de totale hoeveelheid opslagcapaciteit. Dat is niet alleen prettig in verband met de aan te schaffen hoeveelheid storage, maar helpt ook om uit de voeten te kunnen met almaar kleiner worden backup-vensters. Vandaar dat de afgelopen jaren nieuwe bedrijven zijn opgedoken die technologie voor deduplicatie bieden.

De voordelen van dedupliceren kunnen zeer groot zijn. Mits er gezocht en geanalyseerd kan worden op voldoende kleine data-segmenten - blokken van 2K bijvoorbeeld - zijn deduplicatie ratio's van twintig of vijfentwintig tot één te realiseren. Afhankelijk van de te bekijken hoeveelheid data duurt het echter wel enige tijd voordat die waarde wordt bereikt. Vaak wordt een periode van negentig dagen aangehouden om tot een goed resultaat te komen.

Overtrokken claims

De claims van de aanbieders gaan soms echter wel erg ver. Wie deduplucatie ratio's in de orde van vijfhonderd staat tot één tegenkomt, doet er verstandig aan om voorzichtig met zo'n claim om te gaan. Ongetwijfeld zal de rekensom van de fabrikant kloppen, de vraag is alleen of alle relevante factoren zijn meegenomen om tot een realistisch beeld te komen.

Zo'n sterke reductie kan bijvoorbeeld bereikt worden in een situatie als deze: stel dat op dag één een backup van een 1 TB grote database wordt gemaakt. Van diezelfde database wordt op dag twee opnieuw een backup gemaakt, terwijl slechts 2 GB aan data is veranderd. Een goed geconfigureerde dedupliucatie engine zal dan - in ieder geval in theorie - 998 GB uit die ene TB filteren. Een iets te enthousiaste aanbieder kan dan claimen dat een deduplicatie ratio van vijfhonderd staat tot één is bereikt. Meer realistisch is een ratio van twee staat tot één. Namelijk een nominale opslagcapaciteit van 1000 GB versus een fysieke capaciteit van 1002 GB.

Percentage versus ratio

opslag

De fysieke opslagcapaciteit storage-systemen is bij deduplicatie kleiner dan de nominale.

De fysieke opslagcapaciteit storage-systemen is bij deduplicatie kleiner dan de nominale.

Twee onderwerpen kunnen bij deduplicatie voor de nodige spraakverwarring zorgen: percentage versus ratio, en de definitie voor de benodigde storage. Laatstgenoemde is de manier waarop de benodigde hoeveelheid storage wordt uitgedrukt; in nominale capaciteit dan wel in fysieke capaciteit.

Allereerst die percentages en ratio's. Stel dat een aanbieder claimt dat na een deduplicatie operatie de hoeveelheid data met 47 procent is afgenomen. Dat lijkt significant, terwijl in werkelijkheid de deduplicatie ratio minder is dan twee staat tot één. Als de nominale capaciteit 100 TB was, dan is bij een 47 procent grote reductie nog een hoeveelheid van 53 GB over gebleven. Met andere woorden: er is 53 GB aan fysieke capaciteit nodig om die 100 TB vast te leggen. Dat is dus van een ratio van 100 staat tot 53; minder dan twee staat tot één dus.

Nominale en fysieke capaciteit spelen een hoofdrol bij deduplicatie. De nominale capaciteit is de totale hoeveelheid data die wordt vastgelegd, zonder dat enige vorm van deduplicatie wordt toegepast. De fysieke capaciteit is de hoeveelheid data die na deduplicatie feitelijk wordt opgeslagen. Naarmate de kwaliteit van de software voor deduplicatie toeneemt, is het verschil tussen beide waarden dus steeds groter.

Kiezen

Drie factoren spelen daarnaast een hoofdrol bij het kiezen van een goede oplossing. Test allereerst ieder product dat wordt overwogen en doe dit bovendien met een eigen dataset en op basis van de eigen backup-procedures. Zorg daarnaast dat volstrekt duidelijk is hoe de leverancier tot zijn geclaimde deduplicatie ratio's is gekomen.

Dit soort info wordt veelal in de management console weergegeven. Deze gegevens kunnen een eigen leven gaan leiden als niet duidelijk is hoe de ratio wordt berekend. Het extrapoleren van deze ratio's is echter lastiger dan het lijkt. Leveranciers hebben hier in de regel eigen tools en methodieken voor ontwikkeld. Gebruik die om tot een realistische capaciteitsplanning te komen.

Prestaties van deduplicatie

Performance speelt een belangrijke rol bij deduplicatie. Dit zijn enkele belangrijke factoren:

  • Hoeveel megabyte kan een systeem per seconde verwerken?
  • Welke basistechnologie wordt gebruik? Gaat het om content aware, cryptographic hashing of een bedrijfsspecifieke aanpak?
  • Vindt deduplicatie plaats in realtime of achteraf?
  • Wat is de maximale capaciteit per deduplicatie server en hoe schaalbaar is die aanpak?
  • Levert men een ‘one size fits all'-systeem of gaat het om maatwerk per datacenter?
  • Hoe groter de capaciteit en het prestatieniveau, hoe minder extra systemen beheerd behoeven te worden.
  • Veel deduplicatie producten vereisen dat zo nu en dan data in de repository wordt gereorganiseerd. Hoeveel processen lopen er in de achtergrond?
reageer print stuur door
Gerelateerde artikelen
Reageer
rssMeer Storage
Storage Whitepapers

Dataverlies voorkomen met storage-oplossingen

Alle sectoren zien hun data tegenwoordig snel toenemen. Elk bedrijf heeft dan ook baat bij een meer dynamische, flexibele en niet te vergeten veilige storage-oplossing. Deze whitepaper legt uit hoe een Storage Area Network (SAN)op een betrouwbare manier de  datacapaciteit kan vergroten.... Download nu

Case Study DTZ Zadelhoff: de stap naar betrouwbare replicatie- en backup

Met 13 vestigingen over het hele land had DTZ Zadelhoff de behoefte aan een goede replicatie- en back-up-oplossing. Lees in deze Case Study hoe dit traject verliep, welke maatregelen zijn genomen en wat de uiteindelijke resultaten zijn.... Download nu

Meer Storage whitepapers

Computable Events - Storage

event

Computable organiseert verschillende events met praktijkgerichte informatie over actuele onderwerpen in de ICT:

Storage Producten

Stille RAIDs van LaCie en Noctua

30-12 13:15   De Franse storagefabrikant LaCie en koelingproducent Noctua bouwen samen stille schijfstations. De LaCie 4big Quadra en LaCie 5big Network bevatten Noctua-koeltechnologie. Door de...

Meer storage producten
Storage Praktijk

Doetinchem en Oude IJsselstreek samen in opslag

30-07 14:54   De gemeente Doetinchem telt bijna 57.000 inwoners en vervult een centrumfunctie op maatschappelijk, cultureel en economisch terrein in de Achterhoek. Gemeente Oude IJsselstreek...

Meer storage praktijk
Storage Achtergrond

Dell probeert het opnieuw met diensten

10-12 09:05   Dell zoekt zijn heil in de "oplossingen": de combinatie van computers, opslag en diensten. Ondanks dat het bedrijf tot voor kort niets van het dealerkanaal moest hebben, is er in...

Meer storage achtergrond
Storage Opinie

Reduceren kosten van ons enorme data-stuwmeer

17-12 12:09   Een recessie stopt de datagroei nauwelijks, dat is een ervaring die we in de jaren 2001 - 2003 hebben kunnen zien. Zoals IDC verschillende malen heeft onderzocht, blijft de door...

Meer storage opinie
IT Directory

Bekijk de leveranciers op het gebied van Storage.