Gedistribueerde opslagvoorzieningen

Toegenomen bedieningsgemak en veelzijdige gebruiksmogelijkheden leiden tot steeds meer geperfectioneerde en omvangrijke gegevensobjecten. Komt na de gegevensexplosie de gegevensramp? Dat hoeft niet volgens opslagdeskundige Clemens Vetter, wanneer – uitgaande van de toepassingen die in een bedrijf worden gebruikt – krachtige en solide opslagvoorzieningen beschikbaar komen.

Analisten van bijvoorbeeld de Gartner-groep en de Meta-groep spreken van een gegevensexplosie. Zo is iedereen het erover eens dat men de komende jaren op host-gebied rekening moet houden met een toename van ongeveer 20 procent per jaar. Bij toepassingen binnen een netwerk – lokaal en bedrijfsomvattend – moet men uitgaan van een toename van minstens 50 procent per jaar. Nieuwe toepassingen zoals client/server, multimedia en gegevenspakhuizen zijn zeer data-intensief.
Daar komt bij dat niet alle gegevens hetzelfde zijn. Sommige gegevens moeten via de kortste weg door de pijpleiding, terwijl men bij andere gegevens kan wachten tot ze de ‘motor’ van de toepassing op gang brengen. Er zijn gegevens met een korte bestaansduur en gegevens met een vervaldatum in het volgende decennium. Reeds in de beginperiode van de professionele gegevensverwerking is om deze reden een sterk gelaagde hiërarchie ontwikkeld van opslagsystemen en opslagmedia, zie figuur 1.

De beslissing welke gegevens op welk niveau van de geheugenhiërarchie worden geplaatst, valt gewoonlijk op basis van de toepassingseisen. Natuurlijk zou het het beste zijn als men toegang kon krijgen tot zoveel gegevens als men wil, gecodeerd of multimediaal, voor weinig geld en over iedere afstand, en al het beheer van deze gegevens kon overlaten aan de intelligente beheertoepassingen van het systeem. Dit is nu en waarschijnlijk ook in de toekomst net zo onuitvoerbaar als de kwadratuur van de cirkel. De gebruiker moet de beste oplossing zoeken voor de conflicterende eisen aan antwoordtijd, gegevenscapaciteit, bestaansduur van de gegevens, gegevensbeheer en kosten.
De afgelopen jaren werden de ontwikkelingen in de geheugentechnologie vooral in het bovenste prestatiebereik nog bepaald door de mainframe-wereld en de daar overheersende computer- en kanaalarchitecturen van IBM-systemen (/390-architectuur). Tegenwoordig komen de nieuwe ontwikkelingen in de regel eerst beschikbaar ten behoeve van de aansluiting op open systemen (Scsi), hetgeen het toegenomen belang van gedistribueerde toepassings- en systeemconfiguraties ook op het gebied van geheugentechnologie benadrukt, zie ook figuur 2.

TECHNOLOGIE	CAPACITEIT MEDIUM/SYSTEEM	DATASNELHEID (MB/s)	PRIJS (DM per GB)
DASD	4 GB/>n TB	tot 9	vanaf 1500
Optische schijf	1 GB/tot 1TB	<1	200
Band IBM 3490	tot 1 GB/>20 TB	3	30
Band IBM Magstar	tot 9 GB/>200TB	10	5
Band DLT	20 GB/5 TB	tot 3	5
Band DAT	4 GB/0,3 TB	0,8	<10
Band 8mm	tot 20 GB/tot 2 TB	tot 3	5
Band VHS	tot 20 GB/tot 70 TB	2	2

Figuur 2. Grootte van huidige opslagtechnologieën.

Pompen voor gegevensbrandstof

Als er veelsoortige opslagtanks (Dasd, magnetische en optische systemen, bandopslagsystemen, verschillende montagesystemen zoals loader, jukeboxen, robots) voor de ‘gegevensbrandstof’ worden gebruikt, dan moet deze brandstof daar ook in en weer uit gepompt worden. Wie verstandig is, vergeet ook de reservetank niet. Als een tank overloopt, is er gelukkig nog ergens een grote container waarin men wat kwijt kan om plaats te maken in de opslagtank. Geheugenbeheerfuncties zorgen ervoor dat de gegevens altijd op de juiste plaats en tijd beschikbaar zijn.
De gegevenspomp naar de geheugens met directe toegang, die de meeste produktietoepassingen voorzien van gegevens, is gerealiseerd in de bestandssysteemfuncties van de besturingssystemen en die van de database- en transactiesystemen. De overige geheugenniveaus worden gebruikt door geheugenbeheertoepassingen, zoals die voor de beveiliging, de migratie en de archivering van gegevens (figuur 3).

Figuur 3. Deelfuncties van toepassingen voor geheugenbeheer.

BACK UP

In beveiligingscatalogi wordt aangegeven welke gegevens wanneer op welke gegevensdragers zijn opgeslagen.
Door verschillende opslagmethoden is het mogelijk de hoeveelheden en de benodigde tijd te optimaliseren.
- Volledig: alle gegevens.
- Gedifferentieerd: wijzigingen ten opzichte van vorige volledige of gedifferentieerde backup.
- Incrementeel: wijzigingen ten opzichte van de vorige volledige of gedifferentieerde backup.
Beveiligingsplan en strategie bepalen welke gegevens in welke volgorde worden opgeslagen.
Geautomatiseerde beveiliging op vaste tijdstippen.
Gegevenscodering.
Gegevenscompressie.
Tijdens uitvoering bediening van een scala aan beveiligingsapparatuur en -media en gerobotiseerdearchiefsystemen.
Ondersteuning van diverse clients.
Mediabeheer.
Parallelle beveiliging van clients op m-beveiligingsapparaten in k-systemen.
Beveiliging van actieve databases op logisch (file) en fysiek (raw device) niveau.
Verscheidene reservekopieën tegelijkertijd.
Mogelijkheid tot afzonderlijke, toepassingsspecifieke uitbreidingen.
Intuïtief te bedienen gebruikersinterface voor door eindgebruikers bestuurde beveiliging en reconstructie.
Centraal beheerde bewaking en beveiliging.

HIERARCHICAL STORAGE MANAGEMENT (HSM)

Transparantie voor de eindgebruiker.
Migratie bij een bepaalde ouderdom.
Migratie als schijf vol is (high/low watermark).
Prioriteit stellen (grote/kleine bestanden).
Bepaalde bestanden uitsluiten (exclude-lijsten).
Verscheidene migratieniveaus (bijvoorbeeld OD, tape).
Verscheidene kopieën (cloning).
Migratie op bepaalde tijdstippen bij geringe netwerkbelasting.
Mediabeheer.

ARCHIVERING

Archivering van archiefsets op geschikte randapparatuur voor opslag.
Beheer van archiefsets met bijbehorende meta-informatie zoals van descriptoren in geval van retrieval.
Optioneel verwijderen van gearchiveerde gegevens uit het systeem
Meervoudig archiveren op verschillende media.
Repliceren van archiefsets, bijvoorbeeld voor vernieuwen (refresh) van tape-archieven.

Gegevensbeveiliging beschermt tegen gegevensverlies door uitval van hardware of systemen, door onopzettelijk of juist opzettelijk vernietigen van bestanden, databases of toepassingsspecifieke gegevensobjecten. De gegevens worden op geschikte tijden naar veilige media gekopieerd (back up), waar vandaan ze in geval van gegevensverlies weer snel teruggehaald kunnen worden. In de context van de hedendaagse client/server-configuraties is dit een systeemomvattend probleem geworden. De te beveiligen gegevens, de beveiligde gegevens en de werkplek waar vandaan de beveiliging wordt geregeld, kunnen zich namelijk op verschillende, meestal zelfs heterogene systemen kunnen bevinden.
Hierarchical storage management (hsm) betreft produkten waarmee het mogelijk is meer schijfgeheugen op servers of clients transparant beschikbaar te maken voor de gebruikers. Dit gebeurt door bestanden die langere tijd niet gebruikt worden, op te slaan (te migreren) op goedkopere opslagmedia. Op de schijf blijven zogeheten stubs achter, die de plaats aanduiden waar de gegevens horen. Hierdoor kunnen gebruikers en toepassingen verder werken alsof de gegevens nog online op de schijf staan. Als toegang tot de gegevens wordt gevraagd, remigreert de hms-software de gegevensschijf (recall), waarbij de gebruiker natuurlijk te maken kan krijgen met wachttijd, maar verder niets hoeft te doen.
Archivering is bedoeld voor de langdurige opslag van gegevens, bijvoorbeeld omdat dit wettelijk is voorgeschreven; hierin verschilt het van beveiliging. De te archiveren gegevens hebben meestal een inhoudelijke samenhang die door een descriptor kan worden beschreven. Vaak kunnen de gegevens na het archiveren uit de desbetreffende directories worden verwijderd.
Van de beschreven geheugenbeheertoepassingen wordt in een onderneming vaak een aantal ingeschakeld of alle tegelijkertijd.

Veelsoortige afhankelijkheden

Het is duidelijk dat deze toepassingen in een dergelijke omgeving niet onafhankelijk van elkaar te zien zijn. Dit heeft ondermeer te maken met het feit dat veel functionaliteit, zoals de besturing van de desbetreffende opslagsystemen of het mediabeheer, geacht wordt gemeenschappelijk te zijn. Verder maken al deze toepassingen gebruik van dezelfde soort objecten, zoals bestanden. Wat gebeurt er nu als een backup-toepassing een bestand wil beveiligen dat eerder door de hms-software is gemigreerd? Wordt er een automatische recall in werking gezet, die in voorkomende gevallen wegens passeren van een markering weer een migratie in werking zet?
Wil de opslagvoorziening succes hebben, dan moeten de gebruikte produkten ook op de juiste wijze op elkaar zijn afgestemd en geïntegreerd.
Bovendien zijn er afhankelijkheden tussen geheugenbeheertoepassingen en besturings-, database- en zelfs toepassingssystemen. Moderne gedistribueerde toepassingen slaan hun gegevens veelvuldig op in databasesystemen die voortdurend actief worden gehouden. Gegevensbeveiliging moet dus bij actieve systemen mogelijk zijn, hetgeen vereist dat databasesoftware en beveiligingssoftware functioneel op elkaar zijn afgestemd. Toepassingssystemen maken vaak hun eigen gegevensobjecten. Hiervoor zijn toepassingsspecifieke uitbreidingen van het beveiligingsprodukt nodig.
Terwijl competente producenten op het gebied van gegevensbeveiliging nu al aan deze eisen kunnen voldoen, werken hsm- of archiveringsprodukten nog uitsluitend op gegevensniveau. Ze bieden nauwelijks ondersteuning aan databases, zelfs niet aan toepassingsspecifieke gegevensobjecten. Op die terreinen moet worden gewerkt aan een verdere ontwikkeling van de functionele kant van geheugenbeheertoepassingen.

Opslagvoorzieningen

IT-investeringen in bedrijven worden tegenwoordig meer en meer gepland met het oog op de benodigde toepassingen en niet vanuit de techniek. Het zijn immers de toepassingen die blijvend de zakelijke doelen en de bedrijfsvoering ondersteunen en in veel gevallen, zoals bij gegevenspakhuizen, nieuwe zakelijke mogelijkheden eerst aan het licht moeten brengen. Daarom is het alleen maar vanzelfsprekend dat samen met de gebruikte toepassingen en de desbetreffende architectuur ook een nieuwe richting wordt bepaald voor de basis, de gegevensarchitectuur, waarmee de toepassingen worden aangestuurd.
In door eindgebruikers afzonderlijk aangestuurde PC-toepassingen worden gegevens op de daarvoor bestemde vaste schijven opgeslagen. Bij gebruik op kantoor van workgroup-toepassingen worden de gedeelde gegevens op een lokale bestandsserver opgeslagen. Transactietoepassingen die door een heel bedrijf heen worden gebruikt, bewaren hun gegevens meestal op centrale host-systemen, zoals MVS of BS2000. Maar ook hier is er een trend in de richting van de nieuwe legacy-toepassingen onder Unix, zoals R/3 van SAP, die al vorm gekregen hebben in de client/server-architectuur en die hun gegevens in centrale databases opslaan.
In het algemeen moeten belangrijke gegevensbestanden in serversystemen worden opgeslagen, omdat dan de infrastructuur gemakkelijker kan worden ingesteld om deze ‘brandstofvoorraad’ beveiligd en altijd beschikbaar te hebben. In de praktijk wordt deze werkwijze ook aangehouden.
Essentiële onderdelen van deze infrastructuur zijn de geheugenbeheertoepassingen en de opslagsystemen en -media die daarvoor nodig zijn (figuur 4).

De bouw van deze infrastructuur moet natuurlijk gericht zijn op de gegevensarchitectuur die op basis van de toepassingen is gekozen. De gegevensbeveiliging van sommige minder afzonderlijk werkende PC’s zal met andere middelen moeten worden gerealiseerd dan die van een bedrijfskritische cliënt/server-toepassing met een centrale database.
"Een universeel produkt voor geheugenbeheer van gedistribueerde systemen dat aan alle eisen tegemoet komt, is momenteel niet op de markt," zo karakteriseert Mark Friedman van Demand Technology de situatie. Voor de gebruiker betekent dit in de eerste plaats dat per geval een specifieke oplossing moet worden gebouwd. Daarbij moet vaak een complexe optimalisatie van veel, soms tegenstrijdige invloedsfactoren tot stand worden gebracht. Het gaat erom de bestaande hoeveelheid gegevens binnen de perken te houden.
Hoe meer gegevens er bijvoorbeeld bij een beveiligingsactie verplaatst moeten worden, des te strenger worden de eisen die aan de prestatie worden gesteld; vooral als ook nog met een korte tijdspanne rekening moet worden gehouden. Kan het netwerk wel de gevraagde transportcapaciteit aan? Welke beveiligingsmaatregelen zijn er nodig als de belangrijke gegevens via het netwerk op reis gaan? En niet in de laatste plaats: zorg dat de kosten laag blijven! Met welke hardware en welke software kan de vereiste prestatie bij een zo gunstig mogelijke prijs worden geleverd? Worden de financiële voordelen van een ‘kleine’, niet centrale voorziening mogelijk snel te niet gedaan door de kosten van het ter plekke benodigde personeel? Kan de aanwezige centrale randapparatuur voor gegevensopslag ook voor de netwerkgegevens worden gebruikt?
Als voor al deze voorwaarden succesvolle voorzieningen zijn gevonden, dient men ook nog de modulaire opbouw en de uitbreidbaarheid van de oplossing te bekijken. Met de verdere ontwikkeling van bestaande en de invoering van nieuwe toepassingen dient ook de opslagmethode aangepast te worden. Als men voorziet dat nog meer opslagvoorzieningen zullen worden gebruikt, moeten die ingepast kunnen worden in de bestaande voorziening.
Bij de opbouw van opslagvoorzieningen in gedistribueerde configuraties zijn drie basismodellen te onderscheiden, die ieder hun voor- en nadelen hebben. Op welke punten deze modellen van elkaar verschillen, wordt aangegeven in figuur 5.In bepaalde concrete gevallen kan ook een combinatie van de basismodellen nuttig zijn.

NIET-CENTRALE OPLOSSING
Geheugenhiërarchie en geheugenbeheertoepassingen worden per LAN-segment op een lokale opslagserver beschikbaar gesteld.

CENTRALE OPLOSSING
De host en de daar aanwezige randapparatuur en infrastructuur worden als opslagserver ingezet.

CENTRALE UNIX-OPLOSSING
In het rekencentrum wordt een speciaal Unix-systeem als opslagserver ingezet.

Figuur 5. Basismodellen voor opslagvoorzieningen.

Autonome opslagserver

De opslagserver speelt in dit concept een belangrijke rol als onderdeel van een niet centrale of een centrale oplossing. Verregaand schaalbare Unix-systemen zoals multiprocessorsystemen of grote parallelle computers lenen zich uitstekend voor gebruik als opslagserver. Ze combineren een flexibele configuratie met zeer hoge prestaties en zijn inzetbaar in niet centrale systemen en als centrale opslagserver met aansluiting op gerobotiseerde archiefsystemen, zie figuur 6.

Host-interface kanaal, Escon	Back up	HSM	Archief	…
Beheer gemeenschappelijke middelen Opslagmedia, apparaten, robots
Systeem-platform Unix, Filesystem, SQL, FTP
Host-periferie ATL, Robots	…………………			Centraal systeembeheer

Figuur 6. Autonome opslagserver.

Op deze systemen zijn toepassingen voor opslagbeheer beschikbaar die geoptimaliseerd zijn met het oog op een hoge gegevensdoorvoer, ondersteuning van een grote verscheidenheid aan clients en op databases gebaseerde toepassingen. De voor deze voorzieningen ontworpen architectuur is toegespitst op modulariteit en configureerbaarheid en is bedoeld om als enige autonome opslagserver in het netwerk te functioneren. Deze server kan dan in gelijke mate door clientsystemen, lokale servers en zelfs host-systemen worden gebruikt en worden geïntegreerd in bedrijfsomvattende beheerconcepten, zoals Open View van Hewlett Packard of Transview van Siemens Nixdorf.
Voor de ‘gegevensexplosieve’ wereld van systemen binnen heterogene netwerken kunnen tegenwoordig op Unix gebaseerde opslagvoorzieningen worden gebouwd, die wat betreft functionaliteit en kwaliteit niet onderdoen voor mainframe-voorzieningen en die deze in verdere ontwikkelingsmogelijkheden overtreffen. Veeleisende voorzieningen zijn niet kant en klaar beschikbaar. Ze kunnen echter op maat worden gemaakt voor een bepaalde toepassing, op basis van kwalitatief goede bouwstenen van competente leveranciers.
Hiervoor is een modulair, open en integreerbaar produktconcept noodzakelijk. De toekomstige uitdaging ligt in het hardware-technische beheer van de door de nieuwe toepassingen veroorzaakte gegevensexplosie. Het is onder andere nodig om databases en complexe toepassingsspecifieke gegevensobjecten in belangrijke toepassingen voor opslagbeheer te ondersteunen in het hele netwerk en tijdens uitvoering. In een dergelijk geval kan als opslagvoorziening een autonome opslagserver worden geconfigureerd voor centraal of niet-centraal gebruik.

Dr Clemens Vetter is werkzaam bij Siemens Nixdorf Informationssysteme AG te München.