Computable.nl
  • Thema’s
    • Carrière
    • Innovatie & Transformatie
    • Cloud & Infrastructuur
    • Data & AI
    • Governance & Privacy
    • Security & Awareness
    • Software & Development
    • Werkplek & Beheer
  • Sectoren
    • Channel
    • Financiële dienstverlening
    • Logistiek
    • Onderwijs
    • Overheid
    • Zorg
  • Computable Awards
    • Overzicht
    • Nieuws
    • Winnaars
    • Partner worden
  • Vacatures
    • Vacatures bekijken
    • Vacatures plaatsen
  • Bedrijven
    • Profielen
    • Producten & Diensten
  • Kennisbank
  • Nieuwsbrief

Slimmere data opslag: De-duplicatie

06 maart 2008 - 06:144 minuten leestijdOpinieCloud & Infrastructuur
Bart Sjerps
Bart Sjerps

We weten allemaal wel dat onze informatie zich eigenlijk gedraagt als een virus; het heeft namelijk de merkwaardige eigenschap zich ongemerkt te vermenigvuldigen. Ook kleine mutaties zijn veel voorkomend. Om een voorbeeld te geven: een powerpoint presentatie wordt vaak meermalen opgeslagen in diverse systemen en formaten, alleen al door het feit dat het doorgaans naar vele personen wordt rondgestuurd en vervolgens door de ontvanger op diverse manieren wordt opgeslagen: zowel in de mailbox, als in het lokale mail archief, alsook als los bestand (saved attachment) op de home directory. De eigenschap zich te muteren toont zich in dit voorbeeld doordat mensen vaak de presentatie even openen en – wellicht zonder wijzigingen – weer opslaan. Het bestand is nu echter wel (zij het minimaal) gewijzigd (denk alleen al aan het veld “last modified” en “last accessed” in de properties). Ook als alleen de titel wordt aangepast of wat extra tekst wordt ingevoegd zijn de wijzigingen minimaal – maar er ontstaat wel een heel nieuw, uniek bestand.

Als we de powerpoint in zijn vele hoedanigheden dagelijks moeten backuppen, blijkt al snel dat de totale opslag capaciteit die nodig is vele malen groter is dan het oorspronkelijke bestand zelf. Overigens blijkt ook nog eens dat binnen het bestand herhaalde patronen van data voorkomen – compressie algoritmes (zoals ZIP) maken hier al enigszins gebruik van en vervangen herhalende patronen die vlak bij elkaar liggen door een verkorte code (naast andere slimme trucs om de omvang te verkleinen). Dubbele data aan het begin en eind van het bestand is lastiger voor compressie – vandaar dat de compressie factor vaak niet hoger is dan zo’n 50 à 80% onder gunstige omstandigheden (platte tekst). Dubbele brokken data in verschillende bestanden – of zelfs in verschillende applicaties – zijn al helemaal niet door compressie algorithmes te herkennen.

Echter sinds enige tijd zijn er verschillende algorithmes ontwikkeld die in staat zijn gedupliceerde brokjes data te identificeren en te reduceren tot één. In ons voorbeeld met de veelvuldig gekopieerde powerpoint kun je al aanvoelen dat dit enorm scheelt in de hoeveelheid benodigde capaciteit. De slimste algorithmes zijn ook in staat dubbele data op verschillende fysieke of virtuele servers te herkennen – bijvoorbeeld door ze te vergelijken tegen een centrale de-duplicatie database – en onafhankelijk van het formaat van de data (zoals powerpoint bestand, exchange database of PST file).

Wel is deze techniek vooralsnog het meest geschikt voor backup- en restore toepassingen, omdat de reconstructie van een origineel bestand uit stukjes unieke data nu eenmaal tijd kost en zich dus minder goed leent voor online bestanden of objecten waarbij snelle toegang nodig is – hoewel ook op dat vlak volop onderzoek en ontwikkeling wordt gedaan. Met name de combinatie met "thin provisioning" biedt veel toekomstige nieuwe mogelijkheden.

Van data die is verwijderd vanuit een applicatie blijft namelijk vaak de bestandsstructuur fysiek ergens op disk achterwege en kan derhalve niet zomaar worden teruggegeven aan een vrije data pool (een storage systeem is immers niet in staat te weten of de flarden van een bestand zijn gewist of nog ergens bij het bestand horen). Denk maar aan de mogelijkheid van "undelete" of de "forensic" tools die rechercheurs tot hun beschikking hebben om gewiste data van een PC terug te toveren.

De-duplicatie heeft de potentie dit probleem op te lossen: je kunt bijvoorbeeld alle vrijgekomen ruimte in een bestandssysteem overschrijven met bijvoorbeeld alleen maar nullen – waarna de-duplicatie software alle identieke blokken reduceert tot één en de vrijgekomen disk ruimte weer beschikbaar stelt voor andere toepassingen. Aanpassingen van Unix- Linux- en Windows bestandssystemen om hier slimmer mee om te gaan zullen niet uitblijven en hetzelfde geldt wellicht voor relationele database systemen.

Mijn verwachting is dat de-duplicatie één van de meest interessante storage gerelateerde onderwerpen wordt van dit jaar en de komende jaren; de potentiele kosten reductie in een backup omgeving is nu al enorm, en het volwassen worden van de software tezamen met integratie van andere nieuwe technologie maken dat we nog slechts het tipje van de sluier hebben opgelicht.

Meer over

Disaster recoveryStorage

Deel

    Inschrijven nieuwsbrief Computable

    Door te klikken op inschrijven geef je toestemming aan Jaarbeurs B.V. om je naam en e-mailadres te verwerken voor het verzenden van een of meer mailings namens Computable. Je kunt je toestemming te allen tijde intrekken via de af­meld­func­tie in de nieuwsbrief.
    Wil je weten hoe Jaarbeurs B.V. omgaat met jouw per­soons­ge­ge­vens? Klik dan hier voor ons privacy statement.

    Whitepapers

    Computable.nl

    Bouw de AI-organisatie niet op los zand

    Wat is de afweging tussen zelf bouwen of het benutten van cloud?

    Computable.nl

    Slimme connectiviteit: de toekomst van bouwen

    Hoe stoom jij jouw organisatie in de bouw en installatie sector klaar voor de digitale toekomst?

    Computable.nl

    De weg van dataverzameling naar impact

    Iedere organisatie heeft data, maar niet iedereen weet hoe je het goed gebruikt. Hoe zet je waardevolle informatie om in actie?

    Meer lezen

    ActueelCloud & Infrastructuur

    Opgerolde online-drugsmarkt gebruikte Nederlandse infrastructuur

    Nationale Politie
    ActueelOverheid

    Politie tijdens NAVO-top beter voorbereid op uitval van C2000

    AchtergrondCloud & Infrastructuur

    Europese it moet nú regie pakken

    OpinieData & AI

    Maak ai saai!

    ActueelData & AI

    Cisco sorteert voor op komst van ai-agenten

    AchtergrondData & AI

    Nvidia lanceert 20 nieuwe ai-fabrieken in Europa, maar passeert Nederland

    4 reacties op “Slimmere data opslag: De-duplicatie”

    1. Frank van der Lecq schreef:
      14 maart 2008 om 23:35

      Het is inderdaad zo dat deduplicatie een frisse technologie is in de storagemarkt. Tot voor kort was innovatie vooral gericht op het vergroten van schaalbaarheid en het op kunnen vangen van datagroei, zonder dat er kritisch werd gekeken naar de data die eigenlijk wordt opgeslagen. Deduplicatie is een eerste serieuze stap om data-opslag terug te dringen. Organisaties die deduplicatie willen inzetten om hun back-up volumes te verkleinen, doen er goed aan om hun eigenlijke probleem goed te onderzoeken. Dit omdat er verschillende manieren zijn om deduplicatie toe te passen; er zijn oplossingen die de data al op de host ontdubbelen, zodat er minder data over het netwerk wordt verstuurd. Zeker in netwerken die te maken hebben met forse netwerkbelasting kan dat een groot voordeel opleveren. Andere oplossingen verzamelen data op een appliance, alwaar de deduplicatie plaatsvindt. Appliance deduplicatie wordt door veel leveranciers gezien als een technologie die een hogere compressie mogelijk maakt, maar vermindert de data die over het locale netwerk wordt verstuurd niet. Zo hebben beide oplossingen hun voors en tegens. Voor organisaties die deduplicatie overwegen geldt dus dat ze goed moeten afwegen wat het hoofddoel is.

      Login om te reageren
    2. Remko Westrik schreef:
      9 mei 2008 om 15:02

      Inmiddels zijn er wel al de eerste oplossingen die vrijgekomen ruimte teruggeven aan de vrije pool. HP StorageWorks EVA Dynamic Capacity Management software incombinatie met de HP StorageWorks EVA en Windows 2008 en/of HP-UX 11.23 biedt deze functionaliteit.

      Een paar jaar geleden wat online expansion ook nog niet mogelijk en dat is tegenwoordig in vrijwel alle operating systems aanwezig. Nu de HP EVA’s dat kunnen met Windows en HP-UX zullen de andere operating systems op termijn wel volgen.

      Remko Westrik
      Manager HP StorageWork
      Hewlett-Packard Nederland

      Login om te reageren
    3. Martin de Jong schreef:
      8 mei 2009 om 20:30

      Online expansion bestaat al vele jaren op linux, aix, sun solaris.
      Windows kan dat sinds XP ook al.
      Die denkrichting is niet interessant. Het gaat erom dat op slimmere manier (en dus technieken) met opslag wordt omgegaan.
      Daar is dit artikel maar een kleine stap in.

      Login om te reageren
    4. erli esselink schreef:
      15 februari 2011 om 10:46

      Geldt dit “aangroeien” van data ook voor afbeeldingen? Bij scannen zie ik vele vele keren dezelfde afbeeldingen voorbij flitsen, wat een ruimte kost dat niet.
      Is er iets tegen te doen?

      Login om te reageren

    Geef een reactie Reactie annuleren

    Je moet ingelogd zijn op om een reactie te plaatsen.

    Populaire berichten

    Meer artikelen

    Uitgelicht

    Partnerartikel
    AdvertorialInnovatie & Transformatie

    Computable Insights

    Een ai-agent die klantvragen afhandelt. Dat is een van de nieuwste troeven van softwareproducent Salesforce, dat daarmee meesurft op de...

    Meer persberichten

    Footer

    Direct naar

    • Carrièretests
    • Kennisbank
    • Planning
    • Computable Awards
    • Magazine
    • Abonneren Magazine
    • Cybersec e-Magazine

    Producten

    • Adverteren en meer…
    • Jouw Producten en Bedrijfsprofiel
    • Whitepapers & Leads
    • Vacatures & Employer Branding
    • Persberichten

    Contact

    • Colofon
    • Computable en de AVG
    • Service & contact
    • Inschrijven nieuwsbrief
    • Inlog

    Social

    • Facebook
    • X
    • LinkedIn
    • YouTube
    • Instagram
    © 2025 Jaarbeurs
    • Disclaimer
    • Gebruikersvoorwaarden
    • Privacy statement
    Computable.nl is een product van Jaarbeurs