Koninklijke Bibliotheek maakt e-Depot van honderden terabytes

Levensduur optische schijf bepaalt archiveringsaanpak

08-04-2008 16:29 | Door Robbert Hoeffnagel | Er zijn nog geen reacties op dit artikel | Permalink
e-Depot Biep

De Koninklijke Bibliotheek Den Haag archiveert honderdduizenden boeken, ook digitaal.

De Koninklijke Bibliotheek Den Haag archiveert honderdduizenden boeken, ook digitaal.

De Koninklijke Bibliotheek archiveert ieder in Nederland verschenen boek in zijn e-Depot. Het lijkt vanzelfsprekend dat het daarvoor optische schijven gebruikt. De vraag is echter wel welk type schijf het meest geschikt is en hoe de toegangstijden acceptabel kunnen blijven.

Koninklijke Bibliotheek Den Haag

De klassieke prenten van Beauty and the Beast zitten ook in de collectie van de Koninklijke Bibliotheek Den Haag.

De klassieke prenten van Beauty and the Beast zitten ook in de collectie van de Koninklijke Bibliotheek Den Haag.

Het e-Depot is een ambitieus project waar de Koninklijke Bibliotheek al een aantal jaren aan werkt. Het legt daarmee een digitaal archief aan van ieder boek en iedere elektronische publicatie die in Nederland wordt uitgegeven. Het project ging in het jaar 2000 van start, vertelt Henk Heuvink, it-specialist van de Koninklijke Bibliotheek in Den Haag. "Inmiddels omvat het archief zo'n zeshonderdduizend publicaties. Het groeit jaarlijks met enkele honderdduizenden titels. Wat opslagcapaciteit betreft zitten we daardoor inmiddels op circa 10 terabyte en dat neemt snel toe."

De bibliotheek ging zeven jaar geleden in zee met IBM, dat voorstelde om optische opslagsystemen te gebruiken. "Een jaar of twee geleden zijn we begonnen met het vervangen van die eerste generatie opslagapparatuur. IBM had op dat moment geen optische opslagsystemen meer in het leveringsprogramma, dus moesten we uitkijken naar een andere leverancier."

Om die keuze goed te onderbouwen, deed de Koninklijke Bibliotheek een beroep op Inter Access. Dit bedrijf heeft de nodige ervaring opgedaan met optisch archiveren bij gemeenten. "Bij eerdere projecten hebben we heel goed kunnen vaststellen dat het kiezen van het juiste mediumtype van groot belang is", vertelt Simon Bes van Inter Access. "Zo is cd niet geschikt voor dit soort projecten. Bij het e-Depot gaat het om archivering voor een onbeperkte tijd. Pilot-projecten die we hebben uitgevoerd, lieten zien dat data die weggeschreven wordt op cd's al na korte tijd niet goed meer leesbaar is. Bij een test met negenhonderdduizend bestanden bleek na een jaar zelfs veertig procent al niet meer te reproduceren."

Keuzefactoren

Er speelt bij dit soort grote archiveringsprojecten een aantal factoren die de technische oplossing grotendeels bepalen. Bes: "Dat is allereerst de periode waarin de gearchiveerde informatie nog steeds gereproduceerd moet kunnen worden. De opdracht van de KB is om dit - in principe - tot in eeuwigheid te doen. Disk en tape vallen dan eigenlijk al direct af, omdat beide met enige regelmaat vervangen moet worden. Als we dan bedenken dat het KB straks enkele honderden terabytes aan info in het e-Depot heeft zitten, dan zijn dat soort migratie- en conversieslagen te groot en te duur."

Binnen optische media bestaan maar een paar alternatieven. "Cd valt dus af, net als dvd. Die laatste is toch vooral een huis-tuin-en-keuken oplossing en niet geschikt voor langjarige opslag. Dan blijft in onze optiek eigenlijk alleen UDO over", vertelt Bes. "Plasmon is daar een belangrijke aanbieder van, die bovendien vijftig jaar garantie geeft voor de reproduceerbaarheid van informatie die op dit type schijf is opgeslagen. Bij Plasmon hoor ik zelfs wel geluiden over een periode van honderdzestig jaar, maar daar heb ik geen goed zicht op en dat is in ieder geval ook niet hun officiële standpunt. Van UDO is duidelijk dat zolang de hiervoor gebruikte lasers beschikbaar zijn, Plasmon stelt dat de data gelezen kan worden."

Energieverbruik

Plasmon opslag

Optische schijven kosten geen stroom als er geen data van wordt gelezen.

Optische schijven kosten geen stroom als er geen data van wordt gelezen.

Een tweede factor is energieverbruik. "Daar moeten we bij ieder it-project tegenwoordig goed op letten. Disk valt dan af, aangezien alleen bij tape en optische media de data kan worden vastgelegd op een opslagmedium dat geen energie verbruikt als het niet wordt gebruikt."

"Eigenlijk is er bij dit soort projecten maar één punt dat in het voordeel van disk spreekt: snelheid. Tegelijkertijd is honderden TB's op disk opslaan natuurlijk uiterst kostbaar. Tape is goedkoop, maar kent een slechte toegangstijd. Een relatief goede toegangstijd was echter wel onze derde eis. Bij de Koninklijke Bibliotheek is het gemiddelde bestand kleiner dan een halve MB. Het duurt tien tot vijftien seconden voordat de robot de juiste cartridge heeft geladen, waarna het nog eens drie tot vier minuten kost voordat daadwerkelijk naar de juiste locatie op tape kan worden gespoeld. Kijk ik dan naar de optische systemen van Plasmon, dan duurt het laden en mounten van een schijf gemiddeld vier seconden, terwijl in milliseconden toegang tot de data zelf is verkregen."

"Natuurlijk hebben we het over archivering en mogen we er dus vanuit gaan dat iedere gebruiker snapt dat het ophalen van informatie even tijd kost. Maar we zijn allemaal ongeduldig, dus hoe korter de toegangstijden zijn hoe beter."

Backups

De pilot met opslag op cd's gaf ook goed de noodzaak aan voor het maken van backups van het archief. Leveranciers van archiveringssystemen constateren nog wel eens dat archieven, uitwijk en backup met elkaar verward worden. Een archief is uitsluitend bedoeld voor het voor langere tijd vastleggen van informatie, waar uitwijk vooral is gericht op het garanderen van de beschikbaarheid van productiedata.

"Bij beide omgevingen is echter een aparte backup noodzakelijk. Dus ook bij een archief", licht Bes toe. In dit geval is gekozen voor het gebruik van LTO-tape. "We hadden ook voor enterprise-tape kunnen gaan, maar dat zou de kosten flink hebben opgedreven. Bovendien kennen we bij dit project eigenlijk alleen maar restores waarbij grote stukken van het archief worden teruggeplaatst. Het is dus niet zo dat individuele bestanden teruggehaald moeten kunnen worden. LTO is dan een prima alternatief dat bovendien goed betaalbaar is."

Top 10 Reagerende members
  Aantal reacties
met 3+ sterren
Gemiddelde
waardering
Klik voor meer info1 155 6.4
Klik voor meer info2 121 6.7
Klik voor meer info3 113 6.4
Klik voor meer info4 79 6.6
Klik voor meer info5 53 6.1
Klik voor meer info6 49 6.3
Klik voor meer info7 48 6.5
Klik voor meer info8 44 6.1
Klik voor meer info9 43 6.0
Klik voor meer info10 40 6.3