IBM bouwt grootste dataschijf ooit
Grootschalige simulaties van weerpatronen en klimaat vergen behalve snellere computers steeds meer opslagruimte. IBM tast de grenzen af met deze gigantische array.
120 petabyte is groot. Het is 120 miljoen gigabyte, genoeg voor 24 miljard mp3’s van gemiddeld 5 megabyte per song. Of wie liever een filmbibliotheek aanlegt, kan er 2,4 miljoen HD-films in kwijt van absoluut perfecte blu-raykwaliteit (50 GB per film).
Uitdagingen
Het gaat uiteraard niet over één schijf. De array is opgebouwd uit 200.000 harde schijven. Dat je voor zo’n monstruositeit geen conventionele technieken kan gebruiken lijkt evident. Zowel op hardware- als softwareniveau zijn er behoorlijke uitdagingen. Denk maar aan koeling bijvoorbeeld.
En wat met de onvermijdelijke uitval in zo’n reusachtige hoeveelheid schijven. Net zoals in een gewoon raidsysteem worden alle data redundant bijgehouden op meerdere schijven. Maar dankzij allerlei spitsvondigheden is er geen impact op de prestaties als er een schijf uitvalt. De vervangschijf wordt langzaam opgebouwd door data binnen te halen van verschillende andere schijven.
Miljoen jaar
Bruce Hillsberg, hoofd opslagonderzoek bij IBM en leider van dit project, beweert dat het resulterende systeem een miljoen jaar kan werken zonder data- of prestatieverlies.
Het systeem gebruikt ook een nieuw bestandssysteem, GPFS, ontwikkeld op IBM. Dataopslag wordt immers niet alleen groter, deze moet ook sneller worden. En aangezien de hardware niet voldoende verbetert moet software het verschil maken. GPFS spreidt elk bestand uit over verschillende schijven. Alle delen kunnen dan samen gelezen of geschreven worden, wat tot aanzienlijke snelheidswinst leidt.
GPFS is ook erg efficiënt in het terugvinden van zijn bestanden. Vorige maand indexeerde IBM 10 miljard bestanden in nauwelijks 43 minuten. Het vorige record was 1 miljard bestanden in drie uur.
De klant voor het nieuwe systeem is onbekend, maar de datadrive maakt deel uit van een supercomputer die de klant nodig heeft voor het simuleren van real world phenomena. Mogelijke voorbeelden: moleculair onderzoek, genoomonderzoek, weersvoorspellingen, klimaat en seisimisch onderzoek voor de petroleumindustrie.
Grootschalige simulaties van weerpatronen en klimaat vergen behalve snellere computers steeds meer opslagruimte. IBM tast de grenzen af met deze gigantische array.
120 petabyte is groot. Het is 120 miljoen gigabyte, genoeg voor 24 miljard mp3’s van gemiddeld 5 megabyte per song. Of wie liever een filmbibliotheek aanlegt, kan er 2,4 miljoen HD-films in kwijt van absoluut perfecte blu-raykwaliteit (50 GB per film).
Uitdagingen
Het gaat uiteraard niet over één schijf. De array is opgebouwd uit 200.000 harde schijven. Dat je voor zo’n monstruositeit geen conventionele technieken kan gebruiken lijkt evident. Zowel op hardware- als softwareniveau zijn er behoorlijke uitdagingen. Denk maar aan koeling bijvoorbeeld.
En wat met de onvermijdelijke uitval in zo’n reusachtige hoeveelheid schijven. Net zoals in een gewoon raidsysteem worden alle data redundant bijgehouden op meerdere schijven. Maar dankzij allerlei spitsvondigheden is er geen impact op de prestaties als er een schijf uitvalt. De vervangschijf wordt langzaam opgebouwd door data binnen te halen van verschillende andere schijven.
Miljoen jaar
Bruce Hillsberg, hoofd opslagonderzoek bij IBM en leider van dit project, beweert dat het resulterende systeem een miljoen jaar kan werken zonder data- of prestatieverlies.
Het systeem gebruikt ook een nieuw bestandssysteem, GPFS, ontwikkeld op IBM. Dataopslag wordt immers niet alleen groter, deze moet ook sneller worden. En aangezien de hardware niet voldoende verbetert moet software het verschil maken. GPFS spreidt elk bestand uit over verschillende schijven. Alle delen kunnen dan samen gelezen of geschreven worden, wat tot aanzienlijke snelheidswinst leidt.
GPFS is ook erg efficiënt in het terugvinden van zijn bestanden. Vorige maand indexeerde IBM 10 miljard bestanden in nauwelijks 43 minuten. Het vorige record was 1 miljard bestanden in drie uur.
De klant voor het nieuwe systeem is onbekend, maar de datadrive maakt deel uit van een supercomputer die de klant nodig heeft voor het simuleren van real world phenomena. Mogelijke voorbeelden: moleculair onderzoek, genoomonderzoek, weersvoorspellingen, klimaat en seisimisch onderzoek voor de petroleumindustrie.