IT om de geheimen van het universum te achterhalen
De Large Hadron Collider is de grootste machine die de mens ooit gebouwd heeft, en binnen een paar weken komt hij terug tot leven. Voor de baanbrekende ontdekkingen in Genève zijn het meestal de fysici die alle aandacht krijgen, maar het CERN zou niet functioneren zonder z’n IT-departement. ZDNet.com ging op onderzoek uit.
De LHC, de enorme ondergrondse constructie waarin wetenschappers deeltjes aan zeer hoge snelheden laten botsen om zo onder andere meer te leren over de omstandigheden rond de Big Bang, zorgde in 2012 nog voor de ontdekking van het Higgs-boson of Godsdeeltje. Dat was theoretisch al voor het eerst beschreven in de jaren ’60, maar z’n bestaan werd pas een paar jaar geleden ook effectief bevestigd. Wetenschappers weten dat het Higgs-boson andere deeltjes aan hun massa helpt, maar veel eigenschappen blijven op dit moment obscuur. De geüpgradede versie van de LHC, die nu veel hogere energieniveaus aankan, moet helpen om de geheimen van het Higgs-boson, maar ook van zaken als donkere materie en donkere energie, extra dimensies, antimaterie, en suppersymmetrie verder te ontrafelen.
Op de momenten dat de machine in werking is botsen er miljoenen deeltjes per seconde, en elke botsing wordt waargenomen door de vele detectoren van de LHC. Die sensoren genereren samen meer dan een petabyte data per seconde – geen enkele computer ter wereld zou zo’n hoeveelheid data kunnen opslaan als die voor enige duur opgewekt zou worden. Daarvoor moest dus een geavanceerd systeem op poten worden gezet.
De wegen van de data
Allereerst wordt het grootste deel van de data snel afgekalfd; geavanceerde systemen selecteren enkel die stukken die de wetenschappers kunnen interesseren en filteren de rest meteen weg. Vervolgens trekken tienduizenden processorkernen die lijn nog verder door slechts één procent van de overgebleven data te selecteren. Die gegevens worden opgeslagen, zodat ze later door de fysici geanalyseerd kunnen worden.
Het datacenter dat instaat voor al deze opslag kan tot 6 GB per seconde opslaan als de LHC op volle snelheid draait. De machine werkt echter niet 24/7. Volgens Frédéric Hemmer, het hoofd van het IT-departement, verwacht het team zo’n 30 petabytes per jaar van deze tweede ronde met de LHC. “Dat is ongeveer 250 jaar aan HD-video.”
Het datacenter van CERN is echter niet de enige plaats waar informatie wordt opgeslagen. Het project maakt gebruik van het Worldwide LHC Computing Grid, een gedistribueerd platform met 170 locaties in 40 landen. Dat Grid behandelt elke dag meer dan twee miljoen jobs – een gemiddelde computer zou zo’n aantallen pas na zo’n 1300 jaar draaien bereiken.
Eerst CERN, dan commercieel
Gezien de omvang en het belang van de hele onderneming mag het niet verbazen dat CERN samenwerkt met verschillende technologiebedrijven. Via een publiek-private samenwerking onder de naam CERN openlab zorgt de instelling ervoor dat de LHC over technologie beschikt die nog niet commercieel verkrijgbaar is. Het is een win-win-situatie: CERN krijgt vel sneller dan de rest toegang tot de nieuwste ontwikkelingen, en de fabrikanten krijgen de kans om hun product te testen in een uiterst veeleisende omgeving. Hemmer: “Zo hebben we van Intel vroege toegang gekregen tot CPU-technologie: Nehalem, Westmere, Sandy Bridge, Ivy Bridge, en Haswell.”
Andere partners zijn onder andere Huawei, Oracle, en Siemens, maar ook met Rackspace, Seagate en Yandex wordt er samengewerkt. “Onze samenwerking met Huawei draait grotendeels rond opslag,” zegt Hemmer. “Wij evalueren verschillende oplossingen voor cloudopslag – een goed voorbeeld van technologie die ondertussen ook als een product op de markt verkrijgbaar is.”
Oud en nieuw
In schril contrast daarmee staat de ouderwetse technologie die gebruikt wordt in het datacenter van CERN in Genève. Dat enorme gevaarte bestaat uit vier kamers, samen goed voor meer dan 3000 vierkante meter oppervlakte, en wordt nog eens aangevuld door een tweede faciliteit in Budapest. Volgens Wayne Salter, verantwoordelijke voor de computerfaciliteiten, beschikken beide sites samen over 150.000 cores. De twee datacenters staan in verbinding met twee redundante 100 Gbps-lijnen.
De datacenters slagen hun data echter niet op op state-of-the-art SSD’s of harde schijven, zoals je misschien zou verwachten, maar op magnetische tape – een medium voor dataopslag dat voor het eerst gebruikt werd in 1951. Er worden wel een aantal andere technologieën gebruikt – NetApp, EMC, Hitachi – maar die zijn geen onderdeel van de algemene opslaginfrastructuur en worden enkel ingezet voor specifieke doeleinden.
Volgens Alberto Pace, de verantwoordelijke voor de data- en dienstengroep, zijn er een paar zeer goede redenen voor deze voorkeur voor tape. Zo zijn tapes iets goedkoper dan harde schijven, onder andere omdat ze geen stroom gebruiken – wat op de hoeveelheden die CERN verzamelt toch een significante besparing teweegbrengt. Dat is echter niet het belangrijkste aspect.
Voor Pace telt vooral de betrouwbaarheid en veiligheid van de tapes. “Als een schijf stukgaat, verliezen we alles wat erop stond: terabytes per schijf. Met tapes gaat er altijd maar een relatief klein stukje verloren aan fouten, waardoor er zelden meer dan een paar gigabyte verloren gaat.” Daarenboven blijven tapes decennialang feilloos leesbaar, terwijl de data die op harde schijven wordt opgeslagen slecht vijf jaar volledig toegankelijk blijft.
Wat veiligheidsoverwegingen betreft, gaat tape opnieuw met de hoofdprijs lopen, zegt Pace. “Het zou je jaren kosten om alle data die we op tape hebben opgeslagen te vernietigen; grote hoeveelheden data van een harde schijf wissen is vaak een kwestie van seconden.”
Hij voegt er nog aan toe dat tapes niet zo traag zijn als mensen wel eens denken: ze hebben wel een hoge latency, omdat er telkens een nieuwe tape in de houder moet worden gezet, maar eens ze in werking zijn, kan je er aan hoge snelheid data op schrijven.
Als het van CERN afhangt heeft deze zestig jaar oude technologie dus nog niet afgedaan. Voor deze tweede ronde van de Large Hadron Collider werd de bestaande tape-infrastructuur verbeterd om cartidges met een capaciteit van 8 TB aan te kunnen. Pace en z’n team kunnen binnenkort waarschijnlijk ook genieten van een aantal belangrijke vernieuwingen in dit domein: zo stelde Sony vorig jaar een magnetische tape voor van 185 TB, terwijl IBM en Fujifilm samen een prototype toonden met een capaciteit van 154 TB.
De Large Hadron Collider is de grootste machine die de mens ooit gebouwd heeft, en binnen een paar weken komt hij terug tot leven. Voor de baanbrekende ontdekkingen in Genève zijn het meestal de fysici die alle aandacht krijgen, maar het CERN zou niet functioneren zonder z’n IT-departement. ZDNet.com ging op onderzoek uit.
De LHC, de enorme ondergrondse constructie waarin wetenschappers deeltjes aan zeer hoge snelheden laten botsen om zo onder andere meer te leren over de omstandigheden rond de Big Bang, zorgde in 2012 nog voor de ontdekking van het Higgs-boson of Godsdeeltje. Dat was theoretisch al voor het eerst beschreven in de jaren ’60, maar z’n bestaan werd pas een paar jaar geleden ook effectief bevestigd. Wetenschappers weten dat het Higgs-boson andere deeltjes aan hun massa helpt, maar veel eigenschappen blijven op dit moment obscuur. De geüpgradede versie van de LHC, die nu veel hogere energieniveaus aankan, moet helpen om de geheimen van het Higgs-boson, maar ook van zaken als donkere materie en donkere energie, extra dimensies, antimaterie, en suppersymmetrie verder te ontrafelen.
Op de momenten dat de machine in werking is botsen er miljoenen deeltjes per seconde, en elke botsing wordt waargenomen door de vele detectoren van de LHC. Die sensoren genereren samen meer dan een petabyte data per seconde – geen enkele computer ter wereld zou zo’n hoeveelheid data kunnen opslaan als die voor enige duur opgewekt zou worden. Daarvoor moest dus een geavanceerd systeem op poten worden gezet.
De wegen van de data
Allereerst wordt het grootste deel van de data snel afgekalfd; geavanceerde systemen selecteren enkel die stukken die de wetenschappers kunnen interesseren en filteren de rest meteen weg. Vervolgens trekken tienduizenden processorkernen die lijn nog verder door slechts één procent van de overgebleven data te selecteren. Die gegevens worden opgeslagen, zodat ze later door de fysici geanalyseerd kunnen worden.
Het datacenter dat instaat voor al deze opslag kan tot 6 GB per seconde opslaan als de LHC op volle snelheid draait. De machine werkt echter niet 24/7. Volgens Frédéric Hemmer, het hoofd van het IT-departement, verwacht het team zo’n 30 petabytes per jaar van deze tweede ronde met de LHC. “Dat is ongeveer 250 jaar aan HD-video.”
Het datacenter van CERN is echter niet de enige plaats waar informatie wordt opgeslagen. Het project maakt gebruik van het Worldwide LHC Computing Grid, een gedistribueerd platform met 170 locaties in 40 landen. Dat Grid behandelt elke dag meer dan twee miljoen jobs – een gemiddelde computer zou zo’n aantallen pas na zo’n 1300 jaar draaien bereiken.
Eerst CERN, dan commercieel
Gezien de omvang en het belang van de hele onderneming mag het niet verbazen dat CERN samenwerkt met verschillende technologiebedrijven. Via een publiek-private samenwerking onder de naam CERN openlab zorgt de instelling ervoor dat de LHC over technologie beschikt die nog niet commercieel verkrijgbaar is. Het is een win-win-situatie: CERN krijgt vel sneller dan de rest toegang tot de nieuwste ontwikkelingen, en de fabrikanten krijgen de kans om hun product te testen in een uiterst veeleisende omgeving. Hemmer: “Zo hebben we van Intel vroege toegang gekregen tot CPU-technologie: Nehalem, Westmere, Sandy Bridge, Ivy Bridge, en Haswell.”
Andere partners zijn onder andere Huawei, Oracle, en Siemens, maar ook met Rackspace, Seagate en Yandex wordt er samengewerkt. “Onze samenwerking met Huawei draait grotendeels rond opslag,” zegt Hemmer. “Wij evalueren verschillende oplossingen voor cloudopslag – een goed voorbeeld van technologie die ondertussen ook als een product op de markt verkrijgbaar is.”
Oud en nieuw
In schril contrast daarmee staat de ouderwetse technologie die gebruikt wordt in het datacenter van CERN in Genève. Dat enorme gevaarte bestaat uit vier kamers, samen goed voor meer dan 3000 vierkante meter oppervlakte, en wordt nog eens aangevuld door een tweede faciliteit in Budapest. Volgens Wayne Salter, verantwoordelijke voor de computerfaciliteiten, beschikken beide sites samen over 150.000 cores. De twee datacenters staan in verbinding met twee redundante 100 Gbps-lijnen.
De datacenters slagen hun data echter niet op op state-of-the-art SSD’s of harde schijven, zoals je misschien zou verwachten, maar op magnetische tape – een medium voor dataopslag dat voor het eerst gebruikt werd in 1951. Er worden wel een aantal andere technologieën gebruikt – NetApp, EMC, Hitachi – maar die zijn geen onderdeel van de algemene opslaginfrastructuur en worden enkel ingezet voor specifieke doeleinden.
Volgens Alberto Pace, de verantwoordelijke voor de data- en dienstengroep, zijn er een paar zeer goede redenen voor deze voorkeur voor tape. Zo zijn tapes iets goedkoper dan harde schijven, onder andere omdat ze geen stroom gebruiken – wat op de hoeveelheden die CERN verzamelt toch een significante besparing teweegbrengt. Dat is echter niet het belangrijkste aspect.
Voor Pace telt vooral de betrouwbaarheid en veiligheid van de tapes. “Als een schijf stukgaat, verliezen we alles wat erop stond: terabytes per schijf. Met tapes gaat er altijd maar een relatief klein stukje verloren aan fouten, waardoor er zelden meer dan een paar gigabyte verloren gaat.” Daarenboven blijven tapes decennialang feilloos leesbaar, terwijl de data die op harde schijven wordt opgeslagen slecht vijf jaar volledig toegankelijk blijft.
Wat veiligheidsoverwegingen betreft, gaat tape opnieuw met de hoofdprijs lopen, zegt Pace. “Het zou je jaren kosten om alle data die we op tape hebben opgeslagen te vernietigen; grote hoeveelheden data van een harde schijf wissen is vaak een kwestie van seconden.”
Hij voegt er nog aan toe dat tapes niet zo traag zijn als mensen wel eens denken: ze hebben wel een hoge latency, omdat er telkens een nieuwe tape in de houder moet worden gezet, maar eens ze in werking zijn, kan je er aan hoge snelheid data op schrijven.
Als het van CERN afhangt heeft deze zestig jaar oude technologie dus nog niet afgedaan. Voor deze tweede ronde van de Large Hadron Collider werd de bestaande tape-infrastructuur verbeterd om cartidges met een capaciteit van 8 TB aan te kunnen. Pace en z’n team kunnen binnenkort waarschijnlijk ook genieten van een aantal belangrijke vernieuwingen in dit domein: zo stelde Sony vorig jaar een magnetische tape voor van 185 TB, terwijl IBM en Fujifilm samen een prototype toonden met een capaciteit van 154 TB.