Dure SCSI- en FiberChannel-harddisks blijken het net zo snel te begeven als goedkope ATA/IDE-schijven. Bovendien is de “failure rate” in de praktijk een veelvoud van wat de fabrikanten opgeven.
Dat blijkt uit de onderzoeken ‘Failure Trends in a Large Disk Drive Population' en ‘Disk Failures in the Real World' van respectievelijk Google en Carnegie Mellon University (CMU). Beide presenteerden hun resultaten onlangs op de conferentie File and Storage Technologies (FAST).
Google maakte voor zijn onderzoek gebruik van de gegevens over de harde schijven in zijn eigen datacenters. In totaal ging het om meer dan 100 duizend disks over een periode van vijf jaar. Ook CMU nam de gegevens van 100 duizend schijven over een periode van vijf jaar onder de loep. Zij kregen hun data van een aantal grote rekencentra. Volgens de onderzoekers zijn dit de twee grootste onderzoeken ooit gedaan naar de betrouwbaarheid van harde schijven.
Duurkoop
Bij Google heeft men alleen kunnen kijken naar SATA/PATA-schijven. Dat bedrijf werkt immers zo veel mogelijk met standaard pc-componenten (COTS, Common Off The Shelf). De gegevens van CMU betroffen ook SCSI- en FiberChannel-disks. Meest opzienbarende resultaat is dat die duurdere ‘enterprise'-disks net zo slecht scoorden als de goedkope ATA-schijven. Volgens CMU moest elk jaar twee tot vier procent van alle schijven vervangen worden. Voor sommige systemen bedroeg dat echter meer dan tien procent.
Beide onderzoeken concluderen dat de gevonden ‘failure rates' een veelvoud zijn van de cijfers die de fabrikanten zelf opgeven. Waar die steevast getallen onder de twee procent aanhouden, kan dat volgens Google in de praktijk oplopen tot zes procent.
Belangrijk daarbij is wel dat disk-fabrikanten en gebruikers een heel verschillende definitie voor een defecte disk hanteren. Volgens de fabrikanten blijken tientallen procenten van de teruggestuurde schijven namenlijk gewoon in orde te zijn. Het is bijvoorbeeld een bekend verschijnsel dat incidenteel een bit ‘om kan vallen' en de schijf daarna nog jaren zonder problemen functioneert. In de praktijk zal zo'n schijf voor de zekerheid vaak toch vervangen worden.
Deze definitiekwestie kan echter slechts een heel beperkt deel van de enorme verschillen verklaren. Waar gebruikers rustig de tijd kunnen nemen om over een periode van vijf jaar de levensduur van zijn schijven te meten, heeft een fabrikant daar natuurlijk niet de tijd voor. Hij berekent zijn kwaliteitscijfers dan ook op basis van stress tests, modellen en retouren, maar dan wel in de meest gunstige omstandigheden.
Smart
Behalve naar de levensduur op zich heeft Google ook gekeken naar SMART (Self-Monitoring, Analysis, and Reporting Technology) als voorspeller voor defecten. Als we bedenken dat deze technologie alleen problemen met de schijf zelf detecteert, blijkt SMART heel behoorlijk te werken. Google vond een aantal parameters die sterke voorspellers zijn voor problemen op korte termijn.
Helaas gaat het vaker fout in de elektronica van de schijf dan in het opslagmedium zelf. Dat is bijvoorbeeld te wijten aan wisselingen in temperatuur en voedingsspanning. Volgens Google gaf meer dan eenderde van de disks geen enkele SMART-waarschuwing voordat deze de geest gaf. Dat betekent weliswaar dat je schijven met specifieke waarschuwingen zo snel mogelijk moet vervangen, maar niet dat je daarmee alle disk failures onder controle hebt.
Tenslotte blijkt ook het veelgebruikte ‘badkuip-model' niet te kloppen. Dat zegt dat als schijven in de eerste maanden niet stuk gaan, deze pas na drie tot vijf jaar vanwege slijtage steeds vaker de geest zullen geven. Google vond dat de grafiek na twee jaar alweer een sterke stijging liet zien. Gek genoeg bleek een zware belasting alleen in de eerste drie maanden een hogere uitval tot gevolg te hebben. Daarna werd dit effect pas na jaren gebruik weer goed zichtbaar. Ook hogere temperaturen bleken alleen bij oude schijven problemen op te leveren.
CMU vond niet eens een ‘bodem in de badkuip', maar alleen een vanaf het begin sterk toenemende kans op problemen naarmate de schijf ouder werd. Daarbij was er bovendien geen verschil tussen goedkope ATA-schijven en dure SCSI- of FiberChannel-schijven. Dat betekent dat fabrikanten en gebruikers die hun geld de afgelopen jaren op de ATA-technologie hebben gezet, met het verschijnen van deze studie hun gelijk hebben gekregen.