Bio-informatica stuwende kracht achter ontwikkeling supercomputers

De kranten stonden er afgelopen zomer vol van. Een mijlpaal in de biologie: het menselijk genoom in kaart gebracht! Het boek van het leven, geschreven in de taal van het DNA, is eindelijk te lezen. De enorme vorderingen in het genoomonderzoek zouden onmogelijk zijn geweest zonder netwerken van zeer krachtige computers, zoals in het Sanger Centre in Cambridgde. Ruben Acohen ging er kijken.

Ed loogvred vna de tertsle ni ene roowd is lehe nijrkgbela. Anders gezegd: De volgorde van de letters in een woord is heel belangrijk. Draaien we letters om, dan komt er of onzin te staan of er rolt een verkeerde boodschap uit. Programmeurs kennen de desastreuze gevolgen van ’taalfouten’ in hun programma’s maar al te goed.
De taal van de natuur kent, in tegenstelling tot de taal van mens, een alfabet van slechts vier letters. Het zijn de letters van de basen waaruit het DNA is opgebouwd, dat voorkomt in de cellen van levende organismen. DNA (Deoxyribo Nucleic Acid) is de drager van de erfelijke eigenschappen en bepaalt of we mens of plankton zijn. De volgorde van de basen, aangeduid met de letters A(denine), C(ytosine), T(yrosine) en G(uanine), is van groot belang voor het functioneren van een organisme. Wijkt de volgorde af, dan kunnen verkeerde eiwitten worden geproduceerd en erfelijke ziekten optreden. Informatie over de volgorde van deze basen is dan ook van grote waarde voor het begrijpen van allerlei processen in de cellen, het bestrijden van erfelijke ziekten zoals taaislijmziekte en Alzheimer, het ontwikkelen van (persoonlijke) medicijnen, en een betere diagnose van kanker.
Daarom heeft men de afgelopen jaren met man en (computer)macht gepoogd de volgorde vast te stellen van de letters van het DNA in de chromosomen van de mens. De chromosomen vormen tezamen het genoom. Hoewel grofweg 97 procent van het menselijk genoom als ruwe schets in kaart is gebracht, moeten we waarschijnlijk nog tot 2003 wachten tot de hele klus is geklaard en de noodzakelijke ‘fine-tuning’ heeft plaatsgevonden.
Omdat dit in kaart brengen een gigantisch werk is, wordt het onderzoek uitgevoerd in zestien centra, verspreid over de hele wereld. Het gaat om instituten, universiteiten en bedrijven. Belangrijke onderzoekscentra zijn het bedrijf Celera Genomics, het Whitehead Institute – onderdeel van het MIT (Massachusetts Institute of Technology), en het Sanger Centre. Dit centrum is opgericht door de Wellcome Trust en de UK Medical Research Counsel.

Frederick Sanger

Het Sanger Centre in Hinxham Hall, dertien kilometer ten zuiden van het Engelse Cambridge, baadt in het zonlicht. Zandzakken rond de gebouwen zijn de stille getuigen van de overstromingen die Engeland in oktober 2000 teisterden. Vanaf de buitenkant oogt het centrum heel open vanwege de enorme hoeveelheid glas waaruit de gebouwen zijn opgetrokken. Het is symbolisch voor de sfeer waarin het onderzoek naar het humane genoom aldaar plaatsvindt, maar ook voor de systemen die er draaien, zoals zal blijken. Een qua schoonheid en omvang indrukwekkende boom pal bij het centrum trekt de aandacht. Het lijkt of de gebouwen bewust om deze boom (stamboom; boom der kennis?) heen zijn gebouwd. Het centrum zelf huisvest ook een boom, maar dan gebrandschilderd in een van de ramen. De boom toont in zijn takken onder meer een baby en een volwassen mens. Aan weerszijden van de boom treffen we de dubbele helix van het DNA.
Het totale genoom van de mens bestaat uit circa drie miljard basen. Daarvan tracht het Sanger Centre er zo’n 500 miljoen te ontcijferen. Frederick Sanger, de Britse wetenschapper wiens naam aan het instituut is verbonden, ontwikkelde al in de jaren vijftig een methode voor het vaststellen van de volgorde van de basenparen in het DNA, zie kader.
Daartoe wordt het DNA in kleine stukjes ‘geknipt’, bestaande uit ‘samples’ van vijfhonderd basen. Van de samples worden vervolgens duizenden kopieën gemaakt, die nodig zijn voor het proces van volgordebepaling. Dat vindt plaats in de sequencers. Deze bevinden zich in een grote, meestal lege zaal van het Centre. Waar vroeger analisten in witte jassen met pipetten in de weer waren, gaan nu geruisloos de robotarmen in de apparaten heen en weer. Het resultaat is een enorme hoeveelheid data, waaruit de volgorde van de stukjes van vijfhonderd basen is te bepalen. Vervolgens moeten deze stukken van vijfhonderd weer op de juiste wijze achter elkaar worden gezet, totdat de totale volgorde van het oorspronkelijk in stukken geknipte DNA is opgehelderd.
Maar dat is niet het eind van het verhaal. De onderzoekers willen namelijk weten waar in zo’n geanalyseerd stuk DNA de genen – de erfelijke functionele eenheden – zich bevinden. (Naar schatting bevat het menselijk DNA zo’n 60.000 tot 140.000 genen.) Twee computerprogramma’s spelen hierbij een belangrijke rol: Ssaha voor het assembleren van de stukjes van vijfhonderd basen, en Ensemble voor het identificeren van de genen. Per maand worden miljarden basen (inclusief overlappingen en herhalingen) gelezen in een proces dat van begin tot eind is geautomatiseerd. Inmiddels zijn zo’n 35.000 genen geïdentificeerd.
Naast het menselijk genoomproject lopen er nog twee andere projecten bij het Sanger Centre, namelijk de volgordebepaling van het genoom van pathogenen (ziekteverwekkers, achttien bacteriën en zeven protozoa, waaronder de veroorzakers van malaria en slaapziekte) en een onderzoek naar de genetische veranderingen die plaatsvinden bij kanker. De projecten maken gebruik van elkaars data.

Gekoppelde clusters

Het analysewerk stelt hoge eisen aan de informatietechnologie: allereerst enorme rekenkracht; verder de opslagcapaciteit van duizenden gigabytes; verwerking van de gegevens van grote aantallen ‘sequencers’; ondersteuning van 550 gebruikers; schaalbaarheid en flexibiliteit, zoals de mogelijkheid om nieuwe technologie naadloos in te passen.
Sanger Centre had behoefte aan een architectuur, waarbij opslag- en rekenelementen gescheiden zijn. Gekozen is voor een ‘storage area network’ (san), dat het mogelijk maakt om modules toe te voegen voor specifieke behoeften. Het IT-systeem binnen het Sanger Centre bestaat uit de volgende componenten: een datanetwerk, computersystemen, gegevensopslagsystemen, en beheersoftware voor onder meer clustering en projectbewaking. Het Sanger-netwerk kent 1500 apparaten, waaronder 350 Alpha-systemen, een 440-knoops ‘Blast-farm’ (Basic Local Alignment Search Tool), 250 pc’s, 150 netwerkcomputers en 250 NT/Macs ABI Collection.
Het kraken van de code gebeurt onder meer met behulp van de 350 Compaq Alpha systemen (voornamelijk EV5 533 MHz processors) die onder het besturingssysteem Tru64 Unix draaien. Het rekenpark bestaat uit gekoppelde clusters die het mogelijk maken de belasting te verdelen en die een systeemonafhankelijke opslag kennen. Deze vindt plaats op een Raid 8400 DS20 ‘Blast Farm’. De capaciteit van de gegevensopslag op schijf is de laatste jaren enorm toegenomen, in verband met de almaar groeiende hoeveelheid data. Momenteel is er sprake van een capaciteit van 22 terabyte , waarvan 4,5 terabyte wordt gebruikt voor de verschillende projecten. Werden zo’n vijf jaar geleden disks van 4 GB gebruikt, nu treffen we disks van 72 GB disks aan.
Van alle data wordt elke drie dagen een complete back-up gemaakt, zodat in geval van storing nauwelijks data verloren gaan. Gevolgen van hardwarestoringen worden geminimaliseerd doordat er gekozen is voor een redundante uitvoering, waardoor er geen sprake is van faalpunten die elk (op eigen houtje) het hele systeem kunnen lamleggen. Een voordeel van de gekozen clusteringconfiguratie is dat het mogelijk is om alle 350 rekeneenheden als een enkele supercomputer te laten werken. Ook het beheer is vereenvoudigd.
Van de mogelijkheid om het netwerk uit te breiden, zal gretig gebruik worden gemaakt, zegt Phil Butcher, hoofd IT. "Alle huidige en toekomstige projecten vergen enorm veel rekenkracht; we zullen nog eens met een factor vijf moeten opschalen. Er zullen duizenden cpu’s nodig zijn, grote aantallen ‘pc-farm’-knooppunten, en 50 tot 100 terabyte aan geheugenruimte. De hoeveelheid basen die wordt ontcijferd, verviervoudigt elk jaar. Momenteel zijn we bezig 7,5 TB te installeren om de disks te kunnen kopiëren, en werken we aan clustering van het EBI (Het European Bioinformation Institute dat zich in hetzelfde complex bevindt) met het Sanger Centre. Op de lange termijn zullen we ‘wide area clusters’ tot stand brengen."
Daarnaast wordt de IT ingezet voor extern gebruik. In tegenstelling tot bijvoorbeeld het bedrijf Celera, stelt het Sanger Centre zijn resultaten wel aan een ieder beschikbaar. Een webserver, een Blast-server (deze doorzoekt de DNA-databases op zoek naar bekende DNA-volgordes), FTP en de zoekmachine Alta Vista staan aan de basis van deze dienst. Wil je als onderzoeker informatie over een te onderzoeken gen, dan kun je via internet de databases van het Sanger Centre raadplegen en kijken of de DNA-volgorde al bepaald is, of het met bekende genen te vergelijken.

Overeenkomst en soorten

Om de integratie van de data uit de verschillende instellingen te vereenvoudigen, wordt gebruik gemaakt van open-source software zoals Linux, een open cvs (Concurrent Versions System) ‘repository’, relationele databases, en objectmodellering. Het genoomonderzoek heeft onder andere geresulteerd in een Top-20-lijst van de twintig meest voorkomende eiwitten die het menselijk lichaam aanmaakt. Dit is af te leiden uit het grootste aantal (vergelijkbare) genen. Een gen is de code voor een eiwit.
Onderzoeker Jim Mullikan van het Centre vertelt welke betekenis de IT voor zijn werk heeft. "Met behulp van Ssaha is te bepalen waar de miljoenen ontcijferde stukjes van vijfhonderd basenparen in het menselijk genoom thuishoren. Dat gebeurt door te zoeken naar overlappingen in de brokstukken. Miljoenen gegevens moeten daartoe met elkaar gecombineerd worden. Een Compaq Alpha cpu met 16 GB geheugen doet over het assembleren van acht miljoen samples van vijfhonderd basenparen (globaal ter grootte van het menselijk genoom) zestien uur."
"Een genoom van kleinere omvang, bijvoorbeeld dat van malaria, zou na opsplitsing resulteren in 700.000 stuks van vijfhonderd basenparen. Met behulp van Ssaha zijn de brokstukken in één uur te assembleren op één Alpha-computer, waarbij niet meer dan 1 GB geheugen benodigd is. Ssaha en één computer kunnen het werk doen, waarvoor voorheen heel grote clusters van cpu’s benodigd waren."
De rekenkracht van de computers in samenwerking met het programma Ensemble maken het mogelijk uit de volgorde van de miljoenen basen die basen te bepalen, die tezamen de genen vormen. Naar schatting bestaat slechts 5 procent van het genoom uit genen. De functie van de overige 95 procent is nog niet bekend. Uit de beschikbare informatie is inmiddels gebleken dat mensen onderling verschillen tonen in slechts 0,1 procent van het genoom.
Van meerdere organismen heeft het Sanger Centre de DNA-volgorde reeds bepaald, waaronder de bacteriën die de veroorzakers zijn van tuberculose, tyfus, hersenvliesontsteking, voedselvergiftiging en pest. Ook hun genen zijn geïdentificeerd. Alle informatie staat opgeslagen in databanken. De databanken brengen grote overeenkomsten aan het licht tussen de verschillende soorten. Dit levert belangrijke gegevens op over de verwantschap van soorten. Wordt u dan ook uitgemaakt voor een wurm of een baviaan, realiseert u zich dan dat deze belediging wetenschappelijk is onderbouwd. Zo blijkt een gistcel over een aantal genen te beschikken die bijna volstrekt overeenkomen met die in een mens. Onderzoekers kunnen hierdoor in sommige gevallen uitvinden hoe een gen bij een mens een ziekte veroorzaakt, door het overeenkomstige gen in een gistcel te bestuderen.

Modelorganismen

Omdat een gistcel genetisch nogal ver af staat van de mens, wil men de volgorde van het DNA in het genoom van een muis bepalen (als model voor een zoogdier), van een zebravis (als model voor een gewervelde) en van een nematode (platworm, als model voor een ongewervelde). Deze projecten gaan bij het Sanger Centre van start als het menselijk genoomproject is afgerond. Overigens is in december vorig jaar bekend gemaakt dat het hele genoom van de ‘zandraket’ in kaart is gebracht. De Universiteit van Wageningen heeft hier een bijdrage aan geleverd. De zandraket is al jaren een favoriet modelorganisme voor plantenonderzoekers. Het is een plant met relatief weinig (125 miljoen) basenparen.
Het Sanger Centre voert ook een apart kankergenoom-onderzoek uit. Dit spitst zich onder meer toe op de vraag welke veranderingen in het DNA tot kanker kunnen leiden, en op het identificeren van de betreffende genen. Hiertoe wordt het genoom van kankercellen vergeleken met dat van normale cellen. Bij kanker zijn veel verschillende genen gemuteerd. Veel kankergenen zijn nog niet ontdekt, en er zijn nog miljoenen experimenten nodig om ze boven water te krijgen. Wanneer alle (kanker)genen geïdentificeerd zijn, moet een veel belangrijker vraag worden beantwoord: hoe werken ze alle samen. Dan zal de weg vrij zijn voor het ontwerpen van nieuwe geneesmiddelen.
Kennis over de (volgorde van) genen kent naast medische ook andere toepassingen: het veredelen van landbouwgewassen en diersoorten; industriële productie van enzymen; en in de forensische pathologie bij het oplossen van misdrijven. Enkele toepassingen roepen ethische vragen op, zoals de mogelijkheid tot identificatie en het ‘veredelen’ van mensen.

Bio-IT-markt

De enorme progressie in het genoomonderzoek – elk jaar worden de verwachtingen over het gereedkomen van het menselijke DNA-genoom naar voren bijgesteld – is vooral te danken aan de vooruitgang op het gebied van supercomputers. Er is overigens sprake van een wederzijdse beïnvloeding. De eisen die het medisch-biologisch onderzoek stelt, stimuleren de ontwikkeling van sneller en beter rekentuig. Compaq beschouwt bio-medische toepassingen als een groeimarkt. Analisten verwachten een jaarlijkse winstgroei van circa 100 procent voor de genoombedrijven. De bestedingen aan IT door deze bedrijven zouden gelijke tred houden met deze groei.
Compaq schat dat de winst van de bio-IT-markt zal oplopen van 250 miljoen dollar in 1999 tot 2,2 miljard dollar in 2002. Volgens het blad Forbes zal genoomtechnologie in het jaar 2030 direct of indirect bijdragen aan 20 procent van het BNP in de VS.
Randall Scott, president van het farmaceutisch bedrijf Incyte, trekt een parallel met de informatietechnologie: "Het genoomonderzoek is vandaag de dag op het punt waar de computerindustrie in de jaren zeventig was."
Enkele maanden geleden kondigde Compaq aan 100 miljoen dollar te zullen investeren in startende bedrijven op het gebied van genoomonderzoek, bio-informatica en aanverwante gebieden. Dergelijke bedrijven hebben volgens het bedrijf behoefte aan snelle processors, architecturen die schaalbaarheid met betrekking tot geheugen en processors bieden, grote opslagsystemen, toegangs- en distributiemogelijkheden via het web, en een krachtig en betrouwbaar besturingssysteem.
De afgelopen decennia was het de fysica die de ontwikkeling van steeds krachtiger rekentuig stimuleerde. Zo heeft Compaq een half jaar geleden nog de opdracht gekregen van het Amerikaanse Ministerie van Energie voor de ontwikkeling van de snelste supercomputer ter wereld. Het systeem voor dit Asci Q-project zal bestaan uit 375 Alpha Server GS320 systemen met een totaal van 12.000 Alpha-processors en 600 terabyte opslag.
Maar de biologie, met alle eisen die het stelt aan IT, is sterk in opmars. Biologie en informatietechnologie lijken in sterke mate de toekomst van Homo Sapiens te gaan bepalen. Hopelijk is het een huwelijk dat alleen maar gezonde kinderen oplevert.

Ruben Acohen Freelance Medewerker
Volgordebepaling DNA
DNA bestaat uit twee strengen die in een dubbele helix om elkaar heen gewonden zijn. De bouwstenen van de strengen zijn de nucleotiden, die van elkaar verschillen door het bezit van de base A, C, T of G. DNA is zo opgebouwd dat A van de ene streng zich hecht aan T in de tegenoverliggende streng, en C aan G.
Van een te analyseren stuk DNA (enkelstrengs) worden allereerst duizenden kopieën gemaakt, die fungeren als mallen.
In reageerbuisjes worden deze kopieën samengebracht met losse nucleotiden en DNA-polymerase. Dit is een enzym dat ervoor zorgt dat er tegenover het enkelstrengs DNA een complementaire streng DNA gebouwd wordt. Verder bevinden zich in de reageerbuis fluorescerende stopnucleotiden. Dit zijn nucleotiden die een gemodificeerde A, C, T, of G bezitten. Worden deze ingebouwd in plaats van de gewone nucleotiden, dan stopt de bouw van de dubbele helix. Aangezien er sprake is van een ‘random’ inbouw van de stopnucleotiden, ontstaat er een mengsel van talloze fragmenten, waarvan de aangebouwde streng allerlei afmetingen kan bezitten. Elke aangebouwde streng eindigt met een fluorescerend stopnucleotide.
Het mengsel fragmenten wordt vervolgens in een elektrisch veld binnen haardunne capillairen gescheiden via capilliaire gel-elektroforese. De scheidingsproducten zijn mallen (die altijd dezelfde afmeting hebben) en strengen van verschillende afmetingen, die eindigen met een stopnucleotide. Kleine strengen ondervinden de minste weerstand en gaan dus het snelst door het elektrisch veld. Ze komen onder in de capillaire gel terecht; grote strengen ondervinden meer weerstand en eindigen bovenin. In de gel vormen de fragmenten een streepjespatroon. Met behulp van een fluorescentiedetector is te bepalen welke fluorescerende stopnucleotide (base) elk streepje vertegenwoordigt. Uit de volgorde van de streepjes is de volgorde van de basen te bepalen.

Scheiding van de fragmenten met behulp van gel-elektroforese levert een lijntjespatroon. Wanneer de fragmenten van kort naar lang (van beneden naar boven) geordend worden, ontstaat de volgorde GTCGACCAG.