Infrastructuur / Praktijk
Opslag voor heelalverkenning
Jive loopt in op datastroom radiotelescopen met nieuw cluster
De verkenning van het heelal met radiotelescopen levert ontzagwekkende hoeveelheden data op die wetenschappers graag gedetailleerd geanalyseerd willen zien. De stichting Jive (Joint Institute for Vlbi in Europe) heeft hiervoor in Dwingeloo een Opteron-cluster met speciaal ontwikkelde opslag.
|
Dit in tegenstelling tot een initiatief als het Lofar-project (Low Frequency Array, zie Computable 27 februari), dat juist vele kleine, simpele radiotelescopen combineert en zich richt op lage frequenties. Hierbij wordt ook interferometrie toegepast.
De data die Jive verwerkt, is dus afkomstig van diverse, wereldwijd verspreide observatoria. "Dat zijn gemiddeld twaalf tot twintig telescopen per waarneming, hoewel dat maximum niet in één keer is te doen. Het aantal is afhankelijk van de gewenste waarneming en de zichtbaarheid van de bron vanaf de verschillende plekken op Aarde waar de telescopen staan", legt
|
Virtuele telescoop
Alvorens de data geanalyseerd kan worden, moeten de verschillende metingen eerst gecorreleerd worden om tot één meting van de virtuele reusachtige telescoop te komen. "Dat correleren van de signalen doen we niet op het cluster. Daar hebben we de correlator voor." Die machine is een taakspecifiek apparaat dat bestaat uit speciaal ontworpen chips, die inmiddels ongeveer dertien jaar oud zijn, die IBM naar specificatie heeft geproduceerd. De correlator is vanaf 1992 ontworpen en gebouwd door een internationaal consortium, waar Jive deel van was. Het apparaat is sinds 1999 in gebruik in Dwingeloo.Ondanks de relatieve leeftijd van de correlator-technologie is het juist de rest van de ict-infrastructuur die achterloopt. De datastroom vanaf de radiotelescopen wordt ter plaatse gedigitaliseerd en opgeslagen op tapes. Dat gebeurt met een snelheid van maximaal 1 Gigabit per seconde. De beperking daarbij zijn de filters die worden gebruikt voor de metingen door de radiotelescopen. "Het breedste filter is 512 MHz, de smalste is 62 KHz. Die 512 MHz levert dus 1024 miljoen samples per seconde op. Een typisch experiment duurt acht uur", vertelt Verkouter. De tapes bevatten één tot vier Terabyte aan data, de schijven ongeveer vier.
De tapes, en in toenemende mate harde schijven, worden vervolgens verscheept naar Jive. "We gaan nu wel over op harde schijven", zegt Verkouter die bij de tape-stations van de correlator twee rekken aanwijst waar de tape-drives uit zijn verwijderd om - ruim - plaats te bieden aan leesstations voor harde schijven.
|
De correlator kan zestien input-signalen tegelijk aan met elk een datadichtheid (van de metingen) van 1 Gigabit per seconde. Het combineert die signalen waarbij er 136 verschillende combinaties mogelijk zijn. "En die moeten we wel allemaal uitvoeren om één grote virtuele telescoop te simuleren, liefst ter grootte van de Aarde", legt Verkouter uit. "De correlator moet dus intern acht keer zoveel data verwerken om het - bij de telescopen gedigitaliseerde - golffront te simuleren", vult de software-ontwikkelaar aan. Daarnaast zijn er nog compensaties vanwege onder meer de verschillende atmosferische omstandigheden bij de diverse telescopen en de positie van de Melkweg ten opzichte van het geobserveerde object.
Datastroom
Dit alles levert een aanzienlijke datastroom op. Die wordt momenteel nog beperkt door de tijdsblokken die de correlator kan uitspuwen. Het minimum is 15 miliseconden aan gecombineerde metingen, maar dat is in de praktijk niet te behappen voor het datapad vanuit de correlator naar het opslagsysteem. Het cluster moet het probleem van deze flessenhals - bestaande uit twee delen: achtereenvolgend de doorvoersnelheid van het netwerk en die van de harde schijven - oplossen.
|
Een - letterlijk - tussenliggende factor is de uitleeshardware die de data uit de correlator put en doorgeeft aan het cluster. "Daar hebben we een realtime systeem van vier HP-machines voor, dat ook dient voor de configuratie van de correlator, met een netwerkverbinding van slechts 10 Megabit." Die machine wordt nu bijgestaan door een vierweg single board computer met Pentium III-processoren en 100 Megabit netwerkverbindingen. "De limiet is nu de harde schijfsnelheid en die ligt op 5 Megabyte per seconde voor het uitlezen van de correlator."
Het één keer helemaal uitlezen van dat apparaat levert 2,5 MB aan data op. Dat kan twee keer per seconde, of vier keer, of acht keer, tot aan vierenzestig keer, waarbij de 15 miliseconden wordt gehaald. De schijven kunnen fysiek maximaal 10 Megabyte per seconde aan, maar niet continu (sustained) en dus komt het uitlezen van de correlator uit op 5 MB per
|
Flexibel cluster
Verkouter vertelt dat de data per se continue (streaming) doorgegeven moet worden, anders hoopt de data op en loopt de doorgifte mis. "De data-uitvoer van de correlator ligt op 160 MB per seconde en vijfenveertig minuten per scan. Dan moeten we de tapes omdraaien. Dat levert in totaal een halve Terabyte aan uitvoerdata op per uur. Een standaard waarneming duurt acht uur." Die data komt terecht in het - hierachterliggende - nieuwe cluster, genaamd PCint (Post Correlator Integrator). "En de bewerking levert een kopie van de data op, dus dat is nog eens vier Terabyte." Verschillende bewerkingen genereren meerdere kopieën, met elk specifieke eigenschappen.Dit systeem bestaat uit vier rekenservers met Opteron-processoren en zes machines met opslag. De rekenservers bestaan uit alleen twee processoren en geheugen, de opslagservers hebben elk twee RAID-controllers voor Serial ATA-schijven. "Dat levert een opslagsnelheid op van 160 MB per seconde per machine." Door die hoge, benodigde schijfsnelheid was een snelle onderlinge serververbinding nodig. Jive koos voor Infiniband. De netwerkverbinding is Gigabit Ethernet.
Het besturingssysteem is een aangepaste 64-bit uitvoering van
|
'Glasvezel te beperkt'
Verkouter overwoog aanvankelijk een san-opstelling (storage area network) met glasvezel en RAID. "Toen ik bij leveranciers daarnaar ging informeren, bleek dat duur én niet flexibel genoeg. We willen de data namelijk niet alleen opvangen, maar ook teruglezen om te bewerken." Hij schetst gewenste mogelijkheden om bijvoorbeeld stukken uit een hele waarneming te analyseren. De aanvankelijk bedachte opzet was dan ook twee groepen servers: één die de data uit de correlator haalt en opslaat, en één die de data leest en bewerkt. "Een standaard SAN-oplossing is daar toch te beperkt voor."
|
Het cluster heeft intern drie functionele groepen: de servers (hosts), de tussenstations en de uiteindelijke rekenmachines. Die rolverdeling ligt niet vast, benadrukt Verkouter. Wanneer een opslag-node niet bezet is, kan het toegewezen worden aan de lopende berekening. De machines zijn onderling allemaal met elkaar verbonden zijn middels Infiniband. Dat biedt ook de mogelijkheid meer servers aan te sluiten.
Het prestatieniveau van de Infiniband-verbindingen moet echter nog opgekrikt worden. "Ik heb het onlangs voor het eerst werkend gezien, maar de prestaties vielen nogal tegen. De latency was wel erg laag, maar de bandbreedte moeten we nog verbeteren. Infiniband is immers nog nieuwe technologie, maar we hebben bewust gekozen voor dat risico." Boesenkool benadrukt dat dit geen teleurstelling is voor Jive: "Dit is voor ons in de wetenschap normaal." Verkouter vult aan: "We ontdekken nu ook nog de fijne kneepjes van de correlator."
Inmiddels is er vooruitgang geboekt in de benutting van de Infiniband-doorvoer. De leverancier heeft met het testprogramma Netpipe 200 MB per seconde gehaald. Dat is echter nog altijd slechts eenvijfde van de theoretische bandbreedte van Infiniband.
Kink in de kabel
Het Jive-cluster is nog niet volledig operationeel. De voornaamste horde die nog genomen moet worden is het putten van de data uit de correlator. "Dat gebeurt nu nog middels ingebedde hardware via de VME-bus (Versa Module Eurocard - red.), maar ik kijk nu naar de seriële aansluitingen op het frontpaneel van de correlator. Ja, bij het ontwerp van het apparaat is al gedacht aan sneller uitlezen."
|
Hulp van buiten hoeft Verkouter niet direct te verwachten: "Wij zijn hier bij Jive de enigen die een correlator zo zwaar belasten. Er zijn er wereldwijd vijf in gebruik. Westerbork ging een tijdje met ons mee, maar mist de financiering. Dat is altijd een probleem in de wetenschappelijke wereld: niet de technologie, maar de financiering", verzucht hij.
Dat is mede de reden dat het nieuwe cluster bij Jive zo flexibel is opgezet: om relatief klein te kunnen beginnen en aan te tonen dat deze benadering werkt. "We hebben de opstelling bewust beperkt. Het liefst zouden we er ook een archief bij hebben, zodat je de data kunt bewaren om het later eventueel nog eens te kunnen verwerken. Bijvoorbeeld met nieuwe methodes of algoritmes. Je weet in de wetenschap namelijk niet altijd waar je naar zoekt. Dat hoort erbij, dus je moet jezelf niet vantevoren beperken, bijvoorbeeld in het aantal combinaties of in de nauwkeurigheid van de data."< BR>
Telescooptijd
De voorstellen voor Jive-waarnemingen worden in Europees verband centraal ingediend en behandeld. Goedkeuring - en dus toewijzing van middelen - is afhankelijk van factoren als het te verwachten wetenschappelijke nut, de beschikbaarheid van telescopen en de waarneembare periode van het object. "Het aantal aanvragen overstijgt de beschikbare telescooptijd", zegt Harro Verkouter van Jive. Er zijn namelijk maar drie periodes per jaar die zijn ingedeeld voor Vlbi-waarnemingen. Dat heeft te maken met wereldwijde afspraken tussen de beheerders van de individuele telescopen", legt hij uit. "Zo'n periode duurt gemiddeld een maand en dat bepaalt dus het schema voor de waarnemingen."
- 15:02 NetApp versterkt midrange storage-portfolio
- 15:00 Update voor Xerox ‘Light Production' printer
- 14:54 Kaseya ondersteunt Microsoft SBS en EBS
- 14:23 EU-gedragscode geeft datacenters energietips
- 09:42 Datacenter staat onder druk
- 09:19 HEBBEN: Blu-Ray Portable Super Multi Drive
- 13:59 Maxdata Nederland stopt ermee
- 13:53 Stille draadloze multifunctional van Samsung
- 13:43 Novaport neemt dienstverlener BSO-IT over
- 14:09 Intel i7 multicore vrijgegeven
Clusterware voor betere toegankelijkheid
Door het installeren van clusterware kan toegankelijkheid en schaalbaarheid van de ‘back-end’ van een database aanzienlijk verbeteren. Deze whitepaper bevat een stappenplan voor het opzetten van een dergelijke geclusterde omgeving.... Download nu
De IT-afdeling als dienstverlener
De inzet en resultaten van de ICT-afdeling moeten flexibel en inzichtelijk zijn. Om dat te realiseren moet deze afdeling transformeren naar dienstverlener. Maar wat levert dit op, wat voor effect heeft dit op de organisatie en wat voor infrastructuur is daar voor nodig? Aan de hand van uitgebreid...... Download nu
Meer Infrastructuur whitepapersNetApp versterkt midrange storage-portfolio
21-11 15:02 NetApp voegt twee nieuwe systemen toe aan zijn midrange storage-serie, de FAS3160 en V3160. Daarnaast gaat NetApp 8Gb Fibre Channel ondersteunen en biedt het bedrijf enterprise...
Meer infrastructuur productenVialis uses virtualization to keep traffic information flowing
16-07 11:46 "Server virtualization enables us to give our customers more reliable and more flexible services and brings us the benefit of greater economy in the area of IT operation." - Johan...
Meer infrastructuur praktijkDatacenter staat onder druk
21-11 09:42 Het datacenter staat anno 2008 onder toenemende druk. Oude ontwerpen kunnen nieuwe systemen en nieuwe vereisten niet goed huisvesten. De stijgende prijs van energie en de trend...
Meer infrastructuur achtergrondWie drijft het nieuwe werken?
27-10 11:56 De week staat er bol van; het nieuwe werken. Veel organisaties denken na over het investeren in dit 'nieuwe werken' maar haken vroegtijdig af. Het bundelen van...
Meer infrastructuur opinieBekijk de leveranciers op het gebied van Infrastructuur.









