storage / Praktijk
Opslag voor heelalverkenning
Jive loopt in op datastroom radiotelescopen met nieuw cluster
De verkenning van het heelal met radiotelescopen levert ontzagwekkende hoeveelheden data op die wetenschappers graag gedetailleerd geanalyseerd willen zien. De stichting Jive (Joint Institute for Vlbi in Europe) heeft hiervoor in Dwingeloo een Opteron-cluster met speciaal ontwikkelde opslag.
|
Dit in tegenstelling tot een initiatief als het Lofar-project (Low Frequency Array, zie Computable 27 februari), dat juist vele kleine, simpele radiotelescopen combineert en zich richt op lage frequenties. Hierbij wordt ook interferometrie toegepast.
De data die Jive verwerkt, is dus afkomstig van diverse, wereldwijd verspreide observatoria. "Dat zijn gemiddeld twaalf tot twintig telescopen per waarneming, hoewel dat maximum niet in één keer is te doen. Het aantal is afhankelijk van de gewenste waarneming en de zichtbaarheid van de bron vanaf de verschillende plekken op Aarde waar de telescopen staan", legt
|
Virtuele telescoop
Alvorens de data geanalyseerd kan worden, moeten de verschillende metingen eerst gecorreleerd worden om tot één meting van de virtuele reusachtige telescoop te komen. "Dat correleren van de signalen doen we niet op het cluster. Daar hebben we de correlator voor." Die machine is een taakspecifiek apparaat dat bestaat uit speciaal ontworpen chips, die inmiddels ongeveer dertien jaar oud zijn, die IBM naar specificatie heeft geproduceerd. De correlator is vanaf 1992 ontworpen en gebouwd door een internationaal consortium, waar Jive deel van was. Het apparaat is sinds 1999 in gebruik in Dwingeloo.Ondanks de relatieve leeftijd van de correlator-technologie is het juist de rest van de ict-infrastructuur die achterloopt. De datastroom vanaf de radiotelescopen wordt ter plaatse gedigitaliseerd en opgeslagen op tapes. Dat gebeurt met een snelheid van maximaal 1 Gigabit per seconde. De beperking daarbij zijn de filters die worden gebruikt voor de metingen door de radiotelescopen. "Het breedste filter is 512 MHz, de smalste is 62 KHz. Die 512 MHz levert dus 1024 miljoen samples per seconde op. Een typisch experiment duurt acht uur", vertelt Verkouter. De tapes bevatten één tot vier Terabyte aan data, de schijven ongeveer vier.
De tapes, en in toenemende mate harde schijven, worden vervolgens verscheept naar Jive. "We gaan nu wel over op harde schijven", zegt Verkouter die bij de tape-stations van de correlator twee rekken aanwijst waar de tape-drives uit zijn verwijderd om - ruim - plaats te bieden aan leesstations voor harde schijven.
|
De correlator kan zestien input-signalen tegelijk aan met elk een datadichtheid (van de metingen) van 1 Gigabit per seconde. Het combineert die signalen waarbij er 136 verschillende combinaties mogelijk zijn. "En die moeten we wel allemaal uitvoeren om één grote virtuele telescoop te simuleren, liefst ter grootte van de Aarde", legt Verkouter uit. "De correlator moet dus intern acht keer zoveel data verwerken om het - bij de telescopen gedigitaliseerde - golffront te simuleren", vult de software-ontwikkelaar aan. Daarnaast zijn er nog compensaties vanwege onder meer de verschillende atmosferische omstandigheden bij de diverse telescopen en de positie van de Melkweg ten opzichte van het geobserveerde object.
Datastroom
Dit alles levert een aanzienlijke datastroom op. Die wordt momenteel nog beperkt door de tijdsblokken die de correlator kan uitspuwen. Het minimum is 15 miliseconden aan gecombineerde metingen, maar dat is in de praktijk niet te behappen voor het datapad vanuit de correlator naar het opslagsysteem. Het cluster moet het probleem van deze flessenhals - bestaande uit twee delen: achtereenvolgend de doorvoersnelheid van het netwerk en die van de harde schijven - oplossen.
|
Een - letterlijk - tussenliggende factor is de uitleeshardware die de data uit de correlator put en doorgeeft aan het cluster. "Daar hebben we een realtime systeem van vier HP-machines voor, dat ook dient voor de configuratie van de correlator, met een netwerkverbinding van slechts 10 Megabit." Die machine wordt nu bijgestaan door een vierweg single board computer met Pentium III-processoren en 100 Megabit netwerkverbindingen. "De limiet is nu de harde schijfsnelheid en die ligt op 5 Megabyte per seconde voor het uitlezen van de correlator."
Het één keer helemaal uitlezen van dat apparaat levert 2,5 MB aan data op. Dat kan twee keer per seconde, of vier keer, of acht keer, tot aan vierenzestig keer, waarbij de 15 miliseconden wordt gehaald. De schijven kunnen fysiek maximaal 10 Megabyte per seconde aan, maar niet continu (sustained) en dus komt het uitlezen van de correlator uit op 5 MB per
|
Flexibel cluster
Verkouter vertelt dat de data per se continue (streaming) doorgegeven moet worden, anders hoopt de data op en loopt de doorgifte mis. "De data-uitvoer van de correlator ligt op 160 MB per seconde en vijfenveertig minuten per scan. Dan moeten we de tapes omdraaien. Dat levert in totaal een halve Terabyte aan uitvoerdata op per uur. Een standaard waarneming duurt acht uur." Die data komt terecht in het - hierachterliggende - nieuwe cluster, genaamd PCint (Post Correlator Integrator). "En de bewerking levert een kopie van de data op, dus dat is nog eens vier Terabyte." Verschillende bewerkingen genereren meerdere kopieën, met elk specifieke eigenschappen.Dit systeem bestaat uit vier rekenservers met Opteron-processoren en zes machines met opslag. De rekenservers bestaan uit alleen twee processoren en geheugen, de opslagservers hebben elk twee RAID-controllers voor Serial ATA-schijven. "Dat levert een opslagsnelheid op van 160 MB per seconde per machine." Door die hoge, benodigde schijfsnelheid was een snelle onderlinge serververbinding nodig. Jive koos voor Infiniband. De netwerkverbinding is Gigabit Ethernet.
Het besturingssysteem is een aangepaste 64-bit uitvoering van
|
'Glasvezel te beperkt'
Verkouter overwoog aanvankelijk een san-opstelling (storage area network) met glasvezel en RAID. "Toen ik bij leveranciers daarnaar ging informeren, bleek dat duur én niet flexibel genoeg. We willen de data namelijk niet alleen opvangen, maar ook teruglezen om te bewerken." Hij schetst gewenste mogelijkheden om bijvoorbeeld stukken uit een hele waarneming te analyseren. De aanvankelijk bedachte opzet was dan ook twee groepen servers: één die de data uit de correlator haalt en opslaat, en één die de data leest en bewerkt. "Een standaard SAN-oplossing is daar toch te beperkt voor."
|
Het cluster heeft intern drie functionele groepen: de servers (hosts), de tussenstations en de uiteindelijke rekenmachines. Die rolverdeling ligt niet vast, benadrukt Verkouter. Wanneer een opslag-node niet bezet is, kan het toegewezen worden aan de lopende berekening. De machines zijn onderling allemaal met elkaar verbonden zijn middels Infiniband. Dat biedt ook de mogelijkheid meer servers aan te sluiten.
Het prestatieniveau van de Infiniband-verbindingen moet echter nog opgekrikt worden. "Ik heb het onlangs voor het eerst werkend gezien, maar de prestaties vielen nogal tegen. De latency was wel erg laag, maar de bandbreedte moeten we nog verbeteren. Infiniband is immers nog nieuwe technologie, maar we hebben bewust gekozen voor dat risico." Boesenkool benadrukt dat dit geen teleurstelling is voor Jive: "Dit is voor ons in de wetenschap normaal." Verkouter vult aan: "We ontdekken nu ook nog de fijne kneepjes van de correlator."
Inmiddels is er vooruitgang geboekt in de benutting van de Infiniband-doorvoer. De leverancier heeft met het testprogramma Netpipe 200 MB per seconde gehaald. Dat is echter nog altijd slechts eenvijfde van de theoretische bandbreedte van Infiniband.
Kink in de kabel
Het Jive-cluster is nog niet volledig operationeel. De voornaamste horde die nog genomen moet worden is het putten van de data uit de correlator. "Dat gebeurt nu nog middels ingebedde hardware via de VME-bus (Versa Module Eurocard - red.), maar ik kijk nu naar de seriële aansluitingen op het frontpaneel van de correlator. Ja, bij het ontwerp van het apparaat is al gedacht aan sneller uitlezen."
|
Hulp van buiten hoeft Verkouter niet direct te verwachten: "Wij zijn hier bij Jive de enigen die een correlator zo zwaar belasten. Er zijn er wereldwijd vijf in gebruik. Westerbork ging een tijdje met ons mee, maar mist de financiering. Dat is altijd een probleem in de wetenschappelijke wereld: niet de technologie, maar de financiering", verzucht hij.
Dat is mede de reden dat het nieuwe cluster bij Jive zo flexibel is opgezet: om relatief klein te kunnen beginnen en aan te tonen dat deze benadering werkt. "We hebben de opstelling bewust beperkt. Het liefst zouden we er ook een archief bij hebben, zodat je de data kunt bewaren om het later eventueel nog eens te kunnen verwerken. Bijvoorbeeld met nieuwe methodes of algoritmes. Je weet in de wetenschap namelijk niet altijd waar je naar zoekt. Dat hoort erbij, dus je moet jezelf niet vantevoren beperken, bijvoorbeeld in het aantal combinaties of in de nauwkeurigheid van de data."< BR>
Telescooptijd
De voorstellen voor Jive-waarnemingen worden in Europees verband centraal ingediend en behandeld. Goedkeuring - en dus toewijzing van middelen - is afhankelijk van factoren als het te verwachten wetenschappelijke nut, de beschikbaarheid van telescopen en de waarneembare periode van het object. "Het aantal aanvragen overstijgt de beschikbare telescooptijd", zegt Harro Verkouter van Jive. Er zijn namelijk maar drie periodes per jaar die zijn ingedeeld voor Vlbi-waarnemingen. Dat heeft te maken met wereldwijde afspraken tussen de beheerders van de individuele telescopen", legt hij uit. "Zo'n periode duurt gemiddeld een maand en dat bepaalt dus het schema voor de waarnemingen."
- 16:55 Reorganisatie bij EMC kost 2400 banen
- 11:29 CA koopt leverancier van data loss prevention
- 14:03 ASMI sluit pact voor kleinere chips
- 10:45 Samsung overweegt halvering chipproductie
- 13:15 Stille RAIDs van LaCie en Noctua
- 14:08 Compellent geeft Windows gratis storage-tools
- 10:16 Toshiba haalt halve terabyte met SSD
- 13:44 CSC bouwt centrale databank wegverkeer
- 14:23 Toshiba schrapt eenderde geheugenproductie
- 12:09 Reduceren kosten van ons enorme data-stuwmeer
Dataverlies voorkomen met storage-oplossingen
Alle sectoren zien hun data tegenwoordig snel toenemen. Elk bedrijf heeft dan ook baat bij een meer dynamische, flexibele en niet te vergeten veilige storage-oplossing. Deze whitepaper legt uit hoe een Storage Area Network (SAN)op een betrouwbare manier de datacapaciteit kan vergroten.... Download nu
Case Study DTZ Zadelhoff: de stap naar betrouwbare replicatie- en backup
Met 13 vestigingen over het hele land had DTZ Zadelhoff de behoefte aan een goede replicatie- en back-up-oplossing. Lees in deze Case Study hoe dit traject verliep, welke maatregelen zijn genomen en wat de uiteindelijke resultaten zijn.... Download nu
Meer Storage whitepapersComputable Events - Storage
Computable organiseert verschillende events met praktijkgerichte informatie over actuele onderwerpen in de ICT:
Doetinchem en Oude IJsselstreek samen in opslag
30-07 14:54 De gemeente Doetinchem telt bijna 57.000 inwoners en vervult een centrumfunctie op maatschappelijk, cultureel en economisch terrein in de Achterhoek. Gemeente Oude IJsselstreek...
Meer storage praktijkDell probeert het opnieuw met diensten
10-12 09:05 Dell zoekt zijn heil in de "oplossingen": de combinatie van computers, opslag en diensten. Ondanks dat het bedrijf tot voor kort niets van het dealerkanaal moest hebben, is er in...
Meer storage achtergrondReduceren kosten van ons enorme data-stuwmeer
17-12 12:09 Een recessie stopt de datagroei nauwelijks, dat is een ervaring die we in de jaren 2001 - 2003 hebben kunnen zien. Zoals IDC verschillende malen heeft onderzocht, blijft de door...
Meer storage opinieStille RAIDs van LaCie en Noctua
30-12 13:15 De Franse storagefabrikant LaCie en koelingproducent Noctua bouwen samen stille schijfstations. De LaCie 4big Quadra en LaCie 5big Network bevatten Noctua-koeltechnologie. Door de...
Meer storage productenBekijk de leveranciers op het gebied van Storage.









