Software voor het dedupliceren van data kan interessante voordelen opleveren in een storage-omgeving. De claims die aanbieders hierbij hanteren zijn vaak echter nogal overdreven. Het is van groot belang om in de rekensommen alle relevante factoren mee te nemen en te testen op basis van eigen datasets.
Het dedupliceren van data staat de laatste jaren flink in de belangstelling. De hoeveelheid informatie die bedrijven opslaan groeit exponentieel, maar tegelijkertijd is duidelijk dat er zich binnen die totale hoeveelheid vastgelegde informatie veel dubbelingen voordoen. Het bekende voorbeeld is uiteraard de Powerpoint-presentatie die naar tien of twaalf mensen binnen de organisatie is gemaild en die in even zoveel mailboxen wordt opgeslagen. Zou het met technologie mogelijk zijn om die tien of twaalf kopieën te ontdekken, dan is het vervolgens uiteraard voldoende om nog slechts één kopie vast te leggen en in de overige mailboxen uitsluitend nog een pointer naar dat ene bestand te plaatsen.
Besparen
Op die manier kan flink bespaard worden op de totale hoeveelheid opslagcapaciteit. Dat is niet alleen prettig in verband met de aan te schaffen hoeveelheid storage, maar helpt ook om uit de voeten te kunnen met almaar kleiner worden backup-vensters. Vandaar dat de afgelopen jaren nieuwe bedrijven zijn opgedoken die technologie voor deduplicatie bieden.
De voordelen van dedupliceren kunnen zeer groot zijn. Mits er gezocht en geanalyseerd kan worden op voldoende kleine data-segmenten – blokken van 2K bijvoorbeeld – zijn deduplicatie ratio’s van twintig of vijfentwintig tot één te realiseren. Afhankelijk van de te bekijken hoeveelheid data duurt het echter wel enige tijd voordat die waarde wordt bereikt. Vaak wordt een periode van negentig dagen aangehouden om tot een goed resultaat te komen.
Overtrokken claims
De claims van de aanbieders gaan soms echter wel erg ver. Wie deduplucatie ratio’s in de orde van vijfhonderd staat tot één tegenkomt, doet er verstandig aan om voorzichtig met zo’n claim om te gaan. Ongetwijfeld zal de rekensom van de fabrikant kloppen, de vraag is alleen of alle relevante factoren zijn meegenomen om tot een realistisch beeld te komen.
Zo’n sterke reductie kan bijvoorbeeld bereikt worden in een situatie als deze: stel dat op dag één een backup van een 1 TB grote database wordt gemaakt. Van diezelfde database wordt op dag twee opnieuw een backup gemaakt, terwijl slechts 2 GB aan data is veranderd. Een goed geconfigureerde dedupliucatie engine zal dan – in ieder geval in theorie – 998 GB uit die ene TB filteren. Een iets te enthousiaste aanbieder kan dan claimen dat een deduplicatie ratio van vijfhonderd staat tot één is bereikt. Meer realistisch is een ratio van twee staat tot één. Namelijk een nominale opslagcapaciteit van 1000 GB versus een fysieke capaciteit van 1002 GB.
Percentage versus ratio
Twee onderwerpen kunnen bij deduplicatie voor de nodige spraakverwarring zorgen: percentage versus ratio, en de definitie voor de benodigde storage. Laatstgenoemde is de manier waarop de benodigde hoeveelheid storage wordt uitgedrukt; in nominale capaciteit dan wel in fysieke capaciteit.
Allereerst die percentages en ratio’s. Stel dat een aanbieder claimt dat na een deduplicatie operatie de hoeveelheid data met 47 procent is afgenomen. Dat lijkt significant, terwijl in werkelijkheid de deduplicatie ratio minder is dan twee staat tot één. Als de nominale capaciteit 100 TB was, dan is bij een 47 procent grote reductie nog een hoeveelheid van 53 GB over gebleven. Met andere woorden: er is 53 GB aan fysieke capaciteit nodig om die 100 TB vast te leggen. Dat is dus van een ratio van 100 staat tot 53; minder dan twee staat tot één dus.
Nominale en fysieke capaciteit spelen een hoofdrol bij deduplicatie. De nominale capaciteit is de totale hoeveelheid data die wordt vastgelegd, zonder dat enige vorm van deduplicatie wordt toegepast. De fysieke capaciteit is de hoeveelheid data die na deduplicatie feitelijk wordt opgeslagen. Naarmate de kwaliteit van de software voor deduplicatie toeneemt, is het verschil tussen beide waarden dus steeds groter.
Kiezen
Drie factoren spelen daarnaast een hoofdrol bij het kiezen van een goede oplossing. Test allereerst ieder product dat wordt overwogen en doe dit bovendien met een eigen dataset en op basis van de eigen backup-procedures. Zorg daarnaast dat volstrekt duidelijk is hoe de leverancier tot zijn geclaimde deduplicatie ratio’s is gekomen.
Dit soort info wordt veelal in de management console weergegeven. Deze gegevens kunnen een eigen leven gaan leiden als niet duidelijk is hoe de ratio wordt berekend. Het extrapoleren van deze ratio’s is echter lastiger dan het lijkt. Leveranciers hebben hier in de regel eigen tools en methodieken voor ontwikkeld. Gebruik die om tot een realistische capaciteitsplanning te komen.
Prestaties van deduplicatie
Performance speelt een belangrijke rol bij deduplicatie. Dit zijn enkele belangrijke factoren:
-
Hoeveel megabyte kan een systeem per seconde verwerken?
-
Welke basistechnologie wordt gebruik? Gaat het om content aware, cryptographic hashing of een bedrijfsspecifieke aanpak?
-
Vindt deduplicatie plaats in realtime of achteraf?
-
Wat is de maximale capaciteit per deduplicatie server en hoe schaalbaar is die aanpak?
-
Levert men een ‘one size fits all’-systeem of gaat het om maatwerk per datacenter?
-
Hoe groter de capaciteit en het prestatieniveau, hoe minder extra systemen beheerd behoeven te worden.
-
Veel deduplicatie producten vereisen dat zo nu en dan data in de repository wordt gereorganiseerd. Hoeveel processen lopen er in de achtergrond?
“Als de nominale capaciteit 100 TB was, dan is bij een 47 procent grote reductie nog een hoeveelheid van 53 GB over gebleven.”
Naar 53TB ipv 53GB denk ik.