發(fā)布日期:2017-03-06
DNA 具有提供大容量信息存儲(chǔ)的潛力。 然而,目前的方法僅能夠使用理論最大值的一小部分。紐約基因組中心和哥倫比亞大學(xué)的 Erlich 和 Zielinski 提出了一種策略:DNA 噴泉,它接近每個(gè)核苷酸存儲(chǔ)的信息的理論最大值。 他們將信息的高效編碼存儲(chǔ)進(jìn) DNA ,并在多輪聚合酶鏈反應(yīng)后仍可以完全恢復(fù)文件。相關(guān)論文發(fā)表在 3 月 3 日的《Science》上。
DNA 是一種有吸引力的存儲(chǔ)數(shù)字信息的媒介,因?yàn)樗蔷o湊的,并且如果保存在陰涼,干燥的地方可以持續(xù)幾十萬(wàn)年,這從 2016 年的一篇《自然》論文就可以體現(xiàn)出來(lái):西班牙學(xué)者成功測(cè)序了距今 43 萬(wàn)年的 DNA 部分序列。( 最古老人類(lèi) DNA 測(cè)序揭示尼安德特人的秘密 )
哥倫比亞大學(xué)的計(jì)算機(jī)科學(xué)教授 Yaniv Erlich 說(shuō),“DNA 不會(huì)像磁帶和 CD 那樣隨時(shí)間而降解,并且不會(huì)過(guò)時(shí)。”
Erlich 和他的同事 Nina Zielinski,選擇了六個(gè)文件編碼寫(xiě)入 DNA:一個(gè)完整的計(jì)算機(jī)操作系統(tǒng),一部 1895 的法國(guó)電影,一個(gè) 50 美元的亞馬遜禮物卡,計(jì)算機(jī)病毒,具有圖畫(huà)信息的先鋒板和一個(gè) 1948 年由信息理論家 Claude Shannon 領(lǐng)導(dǎo)的老研究。這些文件總共 2.14×10 6 字節(jié)。
他們將這些文件壓縮成一個(gè)主文件,然后將數(shù)據(jù)拆分為由 1 和 0 組成的二進(jìn)制代碼的短字符串。使用稱(chēng)為噴泉碼的容錯(cuò)算法,它們將符串隨機(jī)地封裝成液滴,并將每個(gè)液滴中的 1 和 0 映射到DNA 中的四個(gè)核苷酸堿基:A,G,C 和 T。算法刪除已知錯(cuò)誤的字母組合,并添加一個(gè)條形碼到每個(gè)液滴,以幫助以后重新組裝文件。
總而言之,他們生成了 72,000 條 DNA 鏈的數(shù)字列表,每條鏈長(zhǎng) 200 個(gè)堿基,并將其文本文件發(fā)送到舊金山的 DNA 合成公司,Twist Bioscience,其專(zhuān)門(mén)將數(shù)字?jǐn)?shù)據(jù)轉(zhuǎn)換為生物數(shù)據(jù)。 兩個(gè)星期后,他們得到一個(gè)含有一串 DNA 分子的小瓶。
為了檢索他們的文件,他們使用現(xiàn)代測(cè)序技術(shù)來(lái)讀取 DNA 鏈,然后用軟件將遺傳代碼翻譯成二進(jìn)制。 他們恢復(fù)了他們的文件,而且沒(méi)有錯(cuò)誤。 在這個(gè)簡(jiǎn)短的演示中,Erlich 在虛擬機(jī)上打開(kāi)他的歸檔操作系統(tǒng),并玩起 Minesweeper 的游戲來(lái)慶祝。
他們還證明,通過(guò) PCR 技術(shù)擴(kuò)增存儲(chǔ) DNA 樣本后,,可以產(chǎn)生幾乎無(wú)限數(shù)量的文件拷貝,并且經(jīng)過(guò)多次拷貝后,該技術(shù)仍然可以恢復(fù)這些文件數(shù)據(jù)。
研究人員表明,他們的編碼策略在一克 DNA 上包裝了 215 帕比特?cái)?shù)據(jù),是哈佛大學(xué)的開(kāi)創(chuàng)性研究人員喬治·教會(huì)和歐洲生物信息學(xué)研究所的 Nick Goldman 和 Ewan Birney 在《自然》發(fā)表的方法的 100 倍。
“我們相信這是迄今為止最高密度的數(shù)據(jù)存儲(chǔ)設(shè)備,”Erlich 說(shuō)。
DNA 數(shù)據(jù)存儲(chǔ)的容量理論上限于每個(gè)核苷酸的兩個(gè)二進(jìn)制數(shù)字,但是 DNA 本身的生物學(xué)約束和包括冗余信息以重新裝配和讀取片段的需要將其容量降低到每個(gè)核苷酸堿基 1.8 個(gè)二進(jìn)制數(shù)。
研究的亮點(diǎn)是使用噴泉碼。在編碼理論中,噴泉碼是一類(lèi)抹除碼,其有能力從一組給定的源符號(hào)中產(chǎn)生一串無(wú)限的編碼符號(hào)序列,而在理想情況下,只需獲得大小和源符號(hào)相同或稍大的任意編碼符號(hào)子集,便可恢復(fù)源符號(hào)。使用他們的 DNA 噴泉技術(shù),Erlich 和 Zielinski 平均每個(gè)堿基核苷酸包裝 1.6 位。 這至少比以前發(fā)布的方法多 60% 的數(shù)據(jù),并且接近 1.8 位的限制。
該技術(shù)是一項(xiàng)著眼于未來(lái)的具有劃時(shí)代意義存儲(chǔ)技術(shù),它具有高效、存儲(chǔ)量大、存儲(chǔ)時(shí)間長(zhǎng)、易獲取且免維護(hù)的優(yōu)點(diǎn)。不過(guò),鑒于合成 DNA 分子和讀取 DNA 數(shù)據(jù)的成本,現(xiàn)階段用它來(lái)存儲(chǔ)信息仍然太過(guò)昂貴。
但是,如果生產(chǎn)低質(zhì)量的分子,DNA 合成的價(jià)格可以大大降低,而使用 DNA 噴泉等編碼策略可以修復(fù)分子錯(cuò)誤。隨著技術(shù)發(fā)展,DNA 存儲(chǔ)技術(shù)有望進(jìn)入尋常百姓家。
參考資料:
1.DNA Fountain enables a robust and efficient storage architecture
2.As reliable as your hard drive? Maximizing DNA storage
3.Towards practical, high-capacity, low-maintenance information storage in synthesized DNA
4.Nuclear DNA sequences from the Middle Pleistocene Sima de los Huesos hominins
來(lái)源:生物 360