23 april 2018 11:42 6 maart 2017 10:35

DNA-opslag kan 214 petabyte data per gram bevatten

Wetenschappers hebben een nieuwe DNA-opslagtechnologie gecreëerd die 214 petabyte aan data per gram bevat. Hiermee doet de opslag het honderd keer beter dan andere DNA-technieken.

Vooruitgang in technologie heeft er de voorbije jaren voor gezorgd dat harde schijven en flashgeheugen veel meer data kunnen opslaan dan voorheen. Ondanks deze belangrijke verbeteringen zijn de klassieke opslagmethodes nog steeds niet opgewassen tegen ons DNA. In ons lichaam zit informatie een stuk compacter gestockeerd dan momenteel mogelijk is met artificiële methodes. Wetenschappers proberen daarom niet langer om de natuur te evenaren met behulp van klassieke oplossingen. In plaats daarvan zoekt men naar manieren om data zo goed mogelijk op te slaan in DNA.

Capaciteit

Tijdens vroegere studies slaagden wetenschappers erin om digitale data naar DNA te schrijven en weer uit te lezen aan een capaciteit van 1,28 petabyte per gram. Ondanks het feit dat dit een mooie verwezenlijking was, zijn de onderzoekers Yaniv Erlich en Dina Zielinkski erin geslaagd deze capaciteit te verbeteren met maar liefst een factor honderd. “We geloven dat dit een dataopslagtoestel met de hoogste densiteit ooit is,” zegt Erlich.

De maximum capaciteit van DNA-opslag is in theorie twee binaire getallen per nucleotide (adenine, guanine, cytosine en thymine). Door de biologische beperkingen van het medium en de noodzaak aan redundante informatie om de fragmenten later weer te kunnen uitlezen, kunnen er slechts 1,8 binaire getallen per nucleotide worden bewaard. Voorlopig ligt het behalen van de in theorie mogelijke capaciteit jammer genoeg nog niet binnen ons bereik. Wel hebben Erlich en Zielinkski in hun studie kunnen aantonen dat ze gemiddeld 1,6 bits per nucleotide hebben kunnen coderen. Hiermee doen de wetenschappers het 60 procent beter dan vorige studies en komen ze wel erg dicht bij de beoogde 1,8.

Fontein

Om te slagen in hun opzet hebben de wetenschappers gebruik gemaakt van een zogenaamde ‘fountain code’. Deze coderingsmethode laat je toe om een bestand te nemen en het te transformeren in een onbeperkt aantal gecodeerde stukken. Zolang je een beetje meer stukken neemt dan de grootte van het originele bestand, zal je de file kunnen recreëren. De techniek laat je met andere woorden toe om een fontein van gecodeerde data te creëren. Je kan het bestand weer in elkaar zetten door voldoende druppels van de fontein te vangen, ongeacht welke druppels je wel of niet vangt.

[related_article id=”212229″]

Erlich en Zielinksi comprimeerden in de eerste plaats alle bestanden die ze in strengen DNA wilden opslaan. Met behulp van een algoritme werd de binaire code van het gecomprimeerde bestand in kortere stringen van getallen gesplitst. De stringen werden willekeurig verpakt in druppels en de enen en nullen in iedere druppel werden gemapt naar nucleïnezuren van DNA, namelijk A, G, C en T. Hierbij verwijderde hun algoritme DNA-combinaties die erom bekend staan om fouten te creëren. Ten slotte werden alle druppels voorzien van een barcode, wat de onderzoekers helpt bij het weer in elkaar puzzelen van de opgesplitste datastringen.

De onderzoekers kregen als resultaat 72.000 DNA-stringen, waarin onder andere een volledig besturingssysteem en de Franse kortfilm ‘L’Arrivée d’un train en garde de La Ciotat’ bewaard waren. De codes werden opgestuurd naar een bedrijf dat synthetische DNA creëert en na een paar weken kregen Erlich en Zielinski een potje in handen met de DNA-sequenties die zij hadden gecodeerd. Met behulp van klassieke sequentieracties en speciale software werd het coderingsproces omgekeerd. Alle bestanden werden weer volledig in hun oorspronkelijke staat hersteld.

Duur

Behalve de grote densiteit waarmee je data in DNA kan opslaan, heeft de technologie eveneens als voordeel dat je zo goed als oneindig veel kopieën kan maken van DNA-bestanden. Deze kopieën en op hun beurt hun kopieën enzovoort kunnen eveneens foutloos gedecodeerd worden. In tegenstelling tot klassieke opslagtechnieken zal DNA bovendien niet degraderen in de loop der jaren. “DNA zal niet met de tijd degraderen zoals cassettetapes en cd’s en het zal niet verouderd geraken. Indien dit wel het geval zou zijn, zouden we grotere problemen hebben,” grapt Yaniv Erlich.

Jammer genoeg is er momenteel een grote domper op de feestvreugde. Het team spendeerde 7.000 dollar om de door hen gecodeerde DNA-strengen te laten creëren. Het kostte nog eens 2.000 dollar om de data uit te kunnen lezen. Wetenschappers hopen de kostprijs sterk te doen dalen door gebruik te maken van moleculen met een mindere kwaliteit, waarbij coderingstechnieken zoals fountain code ervoor kunnen zorgen dat eventuele fouten worden verholpen.

Vooruitgang in technologie heeft er de voorbije jaren voor gezorgd dat harde schijven en flashgeheugen veel meer data kunnen opslaan dan voorheen. Ondanks deze belangrijke verbeteringen zijn de klassieke opslagmethodes nog steeds niet opgewassen tegen ons DNA. In ons lichaam zit informatie een stuk compacter gestockeerd dan momenteel mogelijk is met artificiële methodes. Wetenschappers proberen daarom niet langer om de natuur te evenaren met behulp van klassieke oplossingen. In plaats daarvan zoekt men naar manieren om data zo goed mogelijk op te slaan in DNA.

Capaciteit

Tijdens vroegere studies slaagden wetenschappers erin om digitale data naar DNA te schrijven en weer uit te lezen aan een capaciteit van 1,28 petabyte per gram. Ondanks het feit dat dit een mooie verwezenlijking was, zijn de onderzoekers Yaniv Erlich en Dina Zielinkski erin geslaagd deze capaciteit te verbeteren met maar liefst een factor honderd. “We geloven dat dit een dataopslagtoestel met de hoogste densiteit ooit is,” zegt Erlich.

De maximum capaciteit van DNA-opslag is in theorie twee binaire getallen per nucleotide (adenine, guanine, cytosine en thymine). Door de biologische beperkingen van het medium en de noodzaak aan redundante informatie om de fragmenten later weer te kunnen uitlezen, kunnen er slechts 1,8 binaire getallen per nucleotide worden bewaard. Voorlopig ligt het behalen van de in theorie mogelijke capaciteit jammer genoeg nog niet binnen ons bereik. Wel hebben Erlich en Zielinkski in hun studie kunnen aantonen dat ze gemiddeld 1,6 bits per nucleotide hebben kunnen coderen. Hiermee doen de wetenschappers het 60 procent beter dan vorige studies en komen ze wel erg dicht bij de beoogde 1,8.

Fontein

Om te slagen in hun opzet hebben de wetenschappers gebruik gemaakt van een zogenaamde ‘fountain code’. Deze coderingsmethode laat je toe om een bestand te nemen en het te transformeren in een onbeperkt aantal gecodeerde stukken. Zolang je een beetje meer stukken neemt dan de grootte van het originele bestand, zal je de file kunnen recreëren. De techniek laat je met andere woorden toe om een fontein van gecodeerde data te creëren. Je kan het bestand weer in elkaar zetten door voldoende druppels van de fontein te vangen, ongeacht welke druppels je wel of niet vangt.

[related_article id=”212229″]

Erlich en Zielinksi comprimeerden in de eerste plaats alle bestanden die ze in strengen DNA wilden opslaan. Met behulp van een algoritme werd de binaire code van het gecomprimeerde bestand in kortere stringen van getallen gesplitst. De stringen werden willekeurig verpakt in druppels en de enen en nullen in iedere druppel werden gemapt naar nucleïnezuren van DNA, namelijk A, G, C en T. Hierbij verwijderde hun algoritme DNA-combinaties die erom bekend staan om fouten te creëren. Ten slotte werden alle druppels voorzien van een barcode, wat de onderzoekers helpt bij het weer in elkaar puzzelen van de opgesplitste datastringen.

De onderzoekers kregen als resultaat 72.000 DNA-stringen, waarin onder andere een volledig besturingssysteem en de Franse kortfilm ‘L’Arrivée d’un train en garde de La Ciotat’ bewaard waren. De codes werden opgestuurd naar een bedrijf dat synthetische DNA creëert en na een paar weken kregen Erlich en Zielinski een potje in handen met de DNA-sequenties die zij hadden gecodeerd. Met behulp van klassieke sequentieracties en speciale software werd het coderingsproces omgekeerd. Alle bestanden werden weer volledig in hun oorspronkelijke staat hersteld.

Duur

Behalve de grote densiteit waarmee je data in DNA kan opslaan, heeft de technologie eveneens als voordeel dat je zo goed als oneindig veel kopieën kan maken van DNA-bestanden. Deze kopieën en op hun beurt hun kopieën enzovoort kunnen eveneens foutloos gedecodeerd worden. In tegenstelling tot klassieke opslagtechnieken zal DNA bovendien niet degraderen in de loop der jaren. “DNA zal niet met de tijd degraderen zoals cassettetapes en cd’s en het zal niet verouderd geraken. Indien dit wel het geval zou zijn, zouden we grotere problemen hebben,” grapt Yaniv Erlich.

Jammer genoeg is er momenteel een grote domper op de feestvreugde. Het team spendeerde 7.000 dollar om de door hen gecodeerde DNA-strengen te laten creëren. Het kostte nog eens 2.000 dollar om de data uit te kunnen lezen. Wetenschappers hopen de kostprijs sterk te doen dalen door gebruik te maken van moleculen met een mindere kwaliteit, waarbij coderingstechnieken zoals fountain code ervoor kunnen zorgen dat eventuele fouten worden verholpen.

Schrijf je in op onze nieuwsbrief en ontvang elke werkdag het beste uit de techwereld in je mailbox.

codering dna opslag Wetenschap

Dorien Vervoort

Dorien heeft een achtergrond als programmeur en is bijzonder geïnteresseerd in robotica en biomedische technologie. Al draait ze haar hand ook niet om voor bredere thema’s als security en internet of things.