Download whitepapers, case studies
en onderzoeken over ICT-onderwerpen
Computable IT Knowledge Base
  Dagelijks het laatste
ICT-nieuws in je inbox?
Computable e-mail nieuwsbrief

Enterprise Content Management / Achtergrond

07-04-2008 14:44 | Door Robbert Hoeffnagel | Er zijn nog geen reacties op dit artikel | Permalink

Voordeel data-deduplicatie vaak zwaar overtrokken

Rationele aanpak vereist voor ontdubbeling storage

toetsenbord hand

Veel data wordt dubbel ingevoerd, opgeslagen en dus bewaard.

Veel data wordt dubbel ingevoerd, opgeslagen en dus bewaard.

Software voor het dedupliceren van data kan interessante voordelen opleveren in een storage-omgeving. De claims die aanbieders hierbij hanteren zijn vaak echter nogal overdreven. Het is van groot belang om in de rekensommen alle relevante factoren mee te nemen en te testen op basis van eigen datasets.

Powerpoint presentatie

Powerpoint-presentaties, zoals deze van Microsoft-topman Eric Rudder, worden rondgemaild en dus dubbel opgeslagen.

Powerpoint-presentaties, zoals deze van Microsoft-topman Eric Rudder, worden rondgemaild en dus dubbel opgeslagen.

Het dedupliceren van data staat de laatste jaren flink in de belangstelling. De hoeveelheid informatie die bedrijven opslaan groeit exponentieel, maar tegelijkertijd is duidelijk dat er zich binnen die totale hoeveelheid vastgelegde informatie veel dubbelingen voordoen. Het bekende voorbeeld is uiteraard de Powerpoint-presentatie die naar tien of twaalf mensen binnen de organisatie is gemaild en die in even zoveel mailboxen wordt opgeslagen. Zou het met technologie mogelijk zijn om die tien of twaalf kopieën te ontdekken, dan is het vervolgens uiteraard voldoende om nog slechts één kopie vast te leggen en in de overige mailboxen uitsluitend nog een pointer naar dat ene bestand te plaatsen.

Besparen

storage groei

Intel-topman Pat Gelsinger spiegelt de enorme datagroei voor.

Intel-topman Pat Gelsinger spiegelt de enorme datagroei voor.

Op die manier kan flink bespaard worden op de totale hoeveelheid opslagcapaciteit. Dat is niet alleen prettig in verband met de aan te schaffen hoeveelheid storage, maar helpt ook om uit de voeten te kunnen met almaar kleiner worden backup-vensters. Vandaar dat de afgelopen jaren nieuwe bedrijven zijn opgedoken die technologie voor deduplicatie bieden.

De voordelen van dedupliceren kunnen zeer groot zijn. Mits er gezocht en geanalyseerd kan worden op voldoende kleine data-segmenten - blokken van 2K bijvoorbeeld - zijn deduplicatie ratio's van twintig of vijfentwintig tot één te realiseren. Afhankelijk van de te bekijken hoeveelheid data duurt het echter wel enige tijd voordat die waarde wordt bereikt. Vaak wordt een periode van negentig dagen aangehouden om tot een goed resultaat te komen.

Overtrokken claims

De claims van de aanbieders gaan soms echter wel erg ver. Wie deduplucatie ratio's in de orde van vijfhonderd staat tot één tegenkomt, doet er verstandig aan om voorzichtig met zo'n claim om te gaan. Ongetwijfeld zal de rekensom van de fabrikant kloppen, de vraag is alleen of alle relevante factoren zijn meegenomen om tot een realistisch beeld te komen.

Zo'n sterke reductie kan bijvoorbeeld bereikt worden in een situatie als deze: stel dat op dag één een backup van een 1 TB grote database wordt gemaakt. Van diezelfde database wordt op dag twee opnieuw een backup gemaakt, terwijl slechts 2 GB aan data is veranderd. Een goed geconfigureerde dedupliucatie engine zal dan - in ieder geval in theorie - 998 GB uit die ene TB filteren. Een iets te enthousiaste aanbieder kan dan claimen dat een deduplicatie ratio van vijfhonderd staat tot één is bereikt. Meer realistisch is een ratio van twee staat tot één. Namelijk een nominale opslagcapaciteit van 1000 GB versus een fysieke capaciteit van 1002 GB.

Percentage versus ratio

opslag

De fysieke opslagcapaciteit storage-systemen is bij deduplicatie kleiner dan de nominale.

De fysieke opslagcapaciteit storage-systemen is bij deduplicatie kleiner dan de nominale.

Twee onderwerpen kunnen bij deduplicatie voor de nodige spraakverwarring zorgen: percentage versus ratio, en de definitie voor de benodigde storage. Laatstgenoemde is de manier waarop de benodigde hoeveelheid storage wordt uitgedrukt; in nominale capaciteit dan wel in fysieke capaciteit.

Allereerst die percentages en ratio's. Stel dat een aanbieder claimt dat na een deduplicatie operatie de hoeveelheid data met 47 procent is afgenomen. Dat lijkt significant, terwijl in werkelijkheid de deduplicatie ratio minder is dan twee staat tot één. Als de nominale capaciteit 100 TB was, dan is bij een 47 procent grote reductie nog een hoeveelheid van 53 GB over gebleven. Met andere woorden: er is 53 GB aan fysieke capaciteit nodig om die 100 TB vast te leggen. Dat is dus van een ratio van 100 staat tot 53; minder dan twee staat tot één dus.

Nominale en fysieke capaciteit spelen een hoofdrol bij deduplicatie. De nominale capaciteit is de totale hoeveelheid data die wordt vastgelegd, zonder dat enige vorm van deduplicatie wordt toegepast. De fysieke capaciteit is de hoeveelheid data die na deduplicatie feitelijk wordt opgeslagen. Naarmate de kwaliteit van de software voor deduplicatie toeneemt, is het verschil tussen beide waarden dus steeds groter.

Kiezen

Drie factoren spelen daarnaast een hoofdrol bij het kiezen van een goede oplossing. Test allereerst ieder product dat wordt overwogen en doe dit bovendien met een eigen dataset en op basis van de eigen backup-procedures. Zorg daarnaast dat volstrekt duidelijk is hoe de leverancier tot zijn geclaimde deduplicatie ratio's is gekomen.

Dit soort info wordt veelal in de management console weergegeven. Deze gegevens kunnen een eigen leven gaan leiden als niet duidelijk is hoe de ratio wordt berekend. Het extrapoleren van deze ratio's is echter lastiger dan het lijkt. Leveranciers hebben hier in de regel eigen tools en methodieken voor ontwikkeld. Gebruik die om tot een realistische capaciteitsplanning te komen.

Prestaties van deduplicatie

Performance speelt een belangrijke rol bij deduplicatie. Dit zijn enkele belangrijke factoren:

  • Hoeveel megabyte kan een systeem per seconde verwerken?
  • Welke basistechnologie wordt gebruik? Gaat het om content aware, cryptographic hashing of een bedrijfsspecifieke aanpak?
  • Vindt deduplicatie plaats in realtime of achteraf?
  • Wat is de maximale capaciteit per deduplicatie server en hoe schaalbaar is die aanpak?
  • Levert men een ‘one size fits all'-systeem of gaat het om maatwerk per datacenter?
  • Hoe groter de capaciteit en het prestatieniveau, hoe minder extra systemen beheerd behoeven te worden.
  • Veel deduplicatie producten vereisen dat zo nu en dan data in de repository wordt gereorganiseerd. Hoeveel processen lopen er in de achtergrond?
reageer print stuur door
Gerelateerde artikelen
Reageer
rssMeer ECM
ECM Whitepapers

ECM nieuwe trend in informatiemanagement

De voordelen van digital content zijn niet meer weg te denken uit het bedrijfsleven. Het zorgt echter wel voor hoge kosten voor storage, en ook de wet- en regelgeving vraagt om adequate oplossingen voor data-opslag. Deze whitepaper gaat in op een nieuwe trend in data-opslag: Enterprise Content...... Download nu

Grip op informatie via ECM

Wat is Enterprise Content Management en wat kan het betekenen voor uw bedrijf? Deze whitepaper behandelt alle facetten van ECM, de eisen die aan de organisatie worden gesteld, welke technieken en software gebruikt wordt, maar ook kostenverlaging en een stappenplan om ECM in te voeren.... Download nu

Meer ECM whitepapers

Computable Events ECM

event

Computable organiseert in 2008 weer verschillende events met praktijkgerichte informatie over actuele onderwerpen in de ICT:

Seminar ECM | 13-11-08
ECM Producten

EMC introduceert Documentum 6.5

25-07 14:47   EMC, specialist in informatie-infrastructuuroplossingen, komt met EMC Documentum 6.5. Deze nieuwe versie van het enterprise content managementsysteem (ecm) biedt een Web...

Meer ecm producten
ECM Cases

Bouwfonds verbetert informatievoorziening en interactie met zijn doelgroepen

28-02 12:35   Bouwfonds is een internationale vastgoedonderneming en behoort in Nederland tot de grootste bedrijven in de sector. Bouwfonds richt zich op het ontwikkelen, financieren en managen...

Meer ecm cases
ECM Achtergrond

Wetgeving maakt e-mailbeheer noodzaak

09-10 09:38   Afspraken en teksten in e-mails kunnen in de rechtszaal als bindend worden verklaard. Het is daarom belangrijk dat het bedrijf voldoet aan wet- en regelgeving rondom...

Meer ecm achtergrond
ECM Opinie

Kredietcrisis moet compliance over hobbel helpen

15-10 10:08   Achteraf. Achteraf is het mooi wonen. Maar achteraf is het ook opvallend om te zien hoe de oorsprong van de kredietcrisis ligt in een omgeving waarvan al in 2005 werd...

Meer ecm opinie