Voordeel data-deduplicatie vaak zwaar overtrokken
Rationele aanpak vereist voor ontdubbeling storage
Software voor het dedupliceren van data kan interessante voordelen opleveren in een storage-omgeving. De claims die aanbieders hierbij hanteren zijn vaak echter nogal overdreven. Het is van groot belang om in de rekensommen alle relevante factoren mee te nemen en te testen op basis van eigen datasets.
Powerpoint-presentaties, zoals deze van Microsoft-topman Eric Rudder, worden rondgemaild en dus dubbel opgeslagen.
Het dedupliceren van data staat de laatste jaren flink in de belangstelling. De hoeveelheid informatie die bedrijven opslaan groeit exponentieel, maar tegelijkertijd is duidelijk dat er zich binnen die totale hoeveelheid vastgelegde informatie veel dubbelingen voordoen. Het bekende voorbeeld is uiteraard de Powerpoint-presentatie die naar tien of twaalf mensen binnen de organisatie is gemaild en die in even zoveel mailboxen wordt opgeslagen. Zou het met technologie mogelijk zijn om die tien of twaalf kopieën te ontdekken, dan is het vervolgens uiteraard voldoende om nog slechts één kopie vast te leggen en in de overige mailboxen uitsluitend nog een pointer naar dat ene bestand te plaatsen.
Besparen
Op die manier kan flink bespaard worden op de totale hoeveelheid opslagcapaciteit. Dat is niet alleen prettig in verband met de aan te schaffen hoeveelheid storage, maar helpt ook om uit de voeten te kunnen met almaar kleiner worden backup-vensters. Vandaar dat de afgelopen jaren nieuwe bedrijven zijn opgedoken die technologie voor deduplicatie bieden.
De voordelen van dedupliceren kunnen zeer groot zijn. Mits er gezocht en geanalyseerd kan worden op voldoende kleine data-segmenten - blokken van 2K bijvoorbeeld - zijn deduplicatie ratio's van twintig of vijfentwintig tot één te realiseren. Afhankelijk van de te bekijken hoeveelheid data duurt het echter wel enige tijd voordat die waarde wordt bereikt. Vaak wordt een periode van negentig dagen aangehouden om tot een goed resultaat te komen.
Overtrokken claims
De claims van de aanbieders gaan soms echter wel erg ver. Wie deduplucatie ratio's in de orde van vijfhonderd staat tot één tegenkomt, doet er verstandig aan om voorzichtig met zo'n claim om te gaan. Ongetwijfeld zal de rekensom van de fabrikant kloppen, de vraag is alleen of alle relevante factoren zijn meegenomen om tot een realistisch beeld te komen.
Zo'n sterke reductie kan bijvoorbeeld bereikt worden in een situatie als deze: stel dat op dag één een backup van een 1 TB grote database wordt gemaakt. Van diezelfde database wordt op dag twee opnieuw een backup gemaakt, terwijl slechts 2 GB aan data is veranderd. Een goed geconfigureerde dedupliucatie engine zal dan - in ieder geval in theorie - 998 GB uit die ene TB filteren. Een iets te enthousiaste aanbieder kan dan claimen dat een deduplicatie ratio van vijfhonderd staat tot één is bereikt. Meer realistisch is een ratio van twee staat tot één. Namelijk een nominale opslagcapaciteit van 1000 GB versus een fysieke capaciteit van 1002 GB.
Percentage versus ratio
Twee onderwerpen kunnen bij deduplicatie voor de nodige spraakverwarring zorgen: percentage versus ratio, en de definitie voor de benodigde storage. Laatstgenoemde is de manier waarop de benodigde hoeveelheid storage wordt uitgedrukt; in nominale capaciteit dan wel in fysieke capaciteit.
Allereerst die percentages en ratio's. Stel dat een aanbieder claimt dat na een deduplicatie operatie de hoeveelheid data met 47 procent is afgenomen. Dat lijkt significant, terwijl in werkelijkheid de deduplicatie ratio minder is dan twee staat tot één. Als de nominale capaciteit 100 TB was, dan is bij een 47 procent grote reductie nog een hoeveelheid van 53 GB over gebleven. Met andere woorden: er is 53 GB aan fysieke capaciteit nodig om die 100 TB vast te leggen. Dat is dus van een ratio van 100 staat tot 53; minder dan twee staat tot één dus.
Nominale en fysieke capaciteit spelen een hoofdrol bij deduplicatie. De nominale capaciteit is de totale hoeveelheid data die wordt vastgelegd, zonder dat enige vorm van deduplicatie wordt toegepast. De fysieke capaciteit is de hoeveelheid data die na deduplicatie feitelijk wordt opgeslagen. Naarmate de kwaliteit van de software voor deduplicatie toeneemt, is het verschil tussen beide waarden dus steeds groter.
Kiezen
Drie factoren spelen daarnaast een hoofdrol bij het kiezen van een goede oplossing. Test allereerst ieder product dat wordt overwogen en doe dit bovendien met een eigen dataset en op basis van de eigen backup-procedures. Zorg daarnaast dat volstrekt duidelijk is hoe de leverancier tot zijn geclaimde deduplicatie ratio's is gekomen.
Dit soort info wordt veelal in de management console weergegeven. Deze gegevens kunnen een eigen leven gaan leiden als niet duidelijk is hoe de ratio wordt berekend. Het extrapoleren van deze ratio's is echter lastiger dan het lijkt. Leveranciers hebben hier in de regel eigen tools en methodieken voor ontwikkeld. Gebruik die om tot een realistische capaciteitsplanning te komen.
Performance speelt een belangrijke rol bij deduplicatie. Dit zijn enkele belangrijke factoren:
- Hoeveel megabyte kan een systeem per seconde verwerken?
- Welke basistechnologie wordt gebruik? Gaat het om content aware, cryptographic hashing of een bedrijfsspecifieke aanpak?
- Vindt deduplicatie plaats in realtime of achteraf?
- Wat is de maximale capaciteit per deduplicatie server en hoe schaalbaar is die aanpak?
- Levert men een ‘one size fits all'-systeem of gaat het om maatwerk per datacenter?
- Hoe groter de capaciteit en het prestatieniveau, hoe minder extra systemen beheerd behoeven te worden.
- Veel deduplicatie producten vereisen dat zo nu en dan data in de repository wordt gereorganiseerd. Hoeveel processen lopen er in de achtergrond?
10-02 Raadsels rond computerstoring Groningen
09-02 'Ook met cookiewet is gebruiker niet anoniem'
07-02 Detron zoekt naar scherper profiel
07-02 De lange weg naar ERP
01-02 Imtech ICT hoort bij tien grootste dienstverleners
31-01 Infotheek profiteert van overjarige hardware
27-01 iPad is favoriet in de zakelijke markt
25-01 Recessie schrikt ICT-bedrijven niet af bij...
23-01 Boek belicht tien effecten van opkomst apps
20-01 'Oracle wil iPad van de bedrijfs-ICT worden'
10-02 Complexiteit elimineren met Backup Exec 2012
10-02 Avocent van Emerson beheert datacenter
08-02 Blue Coat MACH5 kan versleutelde Flash Video aan
08-02 'ICT-afdeling is te traag voor ontwikkeling apps'
07-02 Western Digital haalt hard uit naar Stellar Data
07-02 Detron beheert ICT voor RTL
07-02 Detron zoekt naar scherper profiel
07-02 Europese ICT-beslissers voorzichtig met budget
06-02 Erasmus Universiteit reorganiseert ICT
06-02 Banometer: Topstart vacaturemarkt krijgt vervolg
|
|
25-06-10 FalconStor en HDS samen in VTL en deduplicatie
16-02-10 Steeds meer bedrijven gebruiken deduplicatie
03-12-09 EMC breidt deduplicatie back-upsoftware uit
01-10-08 Opslag draait om databeschikbaarheid
Het herschrijven van de regels van het patch-beheer
De meeste organisaties slagen er niet in patches bijtijds uit te rollen, waardoor ze continu beveiligingsrisico’s......



Naar 53TB ipv 53GB denk ik.