加入星計劃,您可以享受以下權益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 01.堿基與二進制對應,人手長的DNA鏈可存儲10億G數(shù)據(jù)
    • 02.低成本擴大規(guī)??煞胖脭?shù)百萬個DNA序列
    • 03.合成2MB需要7000美元讀取需要2000美元
    • 04.結語:DNA存儲商業(yè)化的關鍵,實現(xiàn)低成本、高密度
  • 相關推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

一個咖啡杯裝下全世界的數(shù)據(jù),DNA存儲芯片神奇在哪?

2021/12/28
550
閱讀需 18 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

在未來,DNA存儲芯片能否替代傳統(tǒng)存儲硬盤?

我們正處于數(shù)據(jù)爆炸的時代,全球數(shù)據(jù)量呈指數(shù)級增長!國際數(shù)據(jù)機構IDC預測,2025年,全球數(shù)據(jù)量將達到175ZB,5年平均復合增長率8%。1ZB等于1萬億GB,如果175ZB數(shù)據(jù)用容量1GB的移動硬盤來裝,至少需要175萬億個硬盤。

在未來,數(shù)據(jù)存儲問題將成為互聯(lián)網(wǎng)發(fā)展的痛點。為了解決數(shù)據(jù)存儲這一難題,受生物學的啟發(fā),研究人員瞄準了人體內(nèi)的DNA。最大的人類染色體含有近2.5億個堿基對,如果每個堿基對上都能存儲數(shù)據(jù),理論上,麻省理工學院生物工程教授Mark Bathe說,一個裝滿DNA的咖啡杯就可以存儲世界上所有的數(shù)據(jù)。

這樣看來,存儲175ZB的數(shù)據(jù)也就不在話下了。這樣一個前景可觀的新興存儲技術,在今年3月被寫進“十四五”規(guī)劃綱要草案中。不僅如此,2021年層出不窮的相關研究及落地進展,令DNA存儲技術愈發(fā)受到關注。

例如1月11日,Nature子刊上發(fā)表了哥倫比亞大學將hello world翻譯成堿基語言錄入大腸桿菌DNA的相關論文;5月26日,由中科院深圳先進技術研究院孵化的中科碳元成立,專注于推進DNA數(shù)據(jù)存儲研發(fā)及商業(yè)化;11月12日,東南大學劉宏團隊將校訓“止于至善”寫進DNA的論文發(fā)表于Science Advances;11月24日,微軟公布首個納米級DNA存儲寫入器……需要注意的是,廣義上的DNA芯片是基因組學和遺傳學研究的工具,指在固相支持物上原位合成寡核苷酸或者直接將大量預先制備的DNA探針以顯微打印的方式有序地固化于支持物表面,然后與標記的樣品雜交。因為其支持物表面常是計算機芯片,因此稱其為DNA芯片。

DNA芯片類型多樣,包括檢測基因、染色體或用于臨床診斷用的芯片,而其中模仿DNA分子結構進行數(shù)據(jù)存儲的是我們今天討論的重點,也就是DNA存儲芯片。

01.堿基與二進制對應,人手長的DNA鏈可存儲10億G數(shù)據(jù)

從遠古石墻上刻的圖案到文字的出現(xiàn),再到最重要的信息載體書籍的產(chǎn)生,我們產(chǎn)生的信息其實并不多。但自從進入信息時代,人類在過去50年里記錄的信息已經(jīng)遠遠超過過去2000年的信息。我們處在信息爆炸的大數(shù)據(jù)時代,所有互聯(lián)網(wǎng)中的信息都作為數(shù)據(jù)保存下來,從網(wǎng)頁、應用程序到安防、衛(wèi)星領域應有盡有。

根據(jù)國際數(shù)據(jù)組織IDC的數(shù)據(jù),2013年至2015年全球大數(shù)據(jù)存儲量分別為4.3ZB、6.6ZB、8.6ZB,增速維持在40%左右,而到2016年全球大數(shù)據(jù)存儲量達到16.1ZB,增長率達到87.21%。2017年至2019年全球大數(shù)據(jù)存儲量分別為21.6ZB、33ZB、41ZB,2020年全球數(shù)據(jù)量達到了60ZB。在大數(shù)據(jù)領域不斷發(fā)展的同時,為了滿足海量的數(shù)據(jù)存儲需求,存儲方式也在不斷發(fā)生變化。

▲IDC監(jiān)測2015-2020年全球數(shù)據(jù)量變化趨勢以及2025年預測

 

DNA是儲存遺傳信息的載體,攜帶有合成RNA和蛋白質所必需的遺傳信息,它可以對生物的所有信息進行編碼。上世紀50年代,就有研究人員發(fā)現(xiàn)了生物特征和人造物體的關系。DNA分子由四種堿基組成,數(shù)據(jù)由二進制0和1組成;DNA用來儲存遺傳信息,數(shù)據(jù)正好需要一個介質存儲,由此蘇聯(lián)物理學家米哈伊爾·薩莫伊洛維奇·內(nèi)曼(Mikhail Samoilovich Neiman)想到,是否可以參考DNA結構來存儲數(shù)據(jù)?

與傳統(tǒng)的存儲介質不同,DNA存儲技術有如下顯著優(yōu)勢。首先是DNA存儲密度高。一個DNA分子可以保留一個物種的全部遺傳信息,最大的人類染色體含有近2.5億個堿基對,那么就意味著一條和人手差不多長的DNA鏈,就可以存儲1EB(1EB=10.74億G)數(shù)據(jù)。

與硬盤和閃存的數(shù)據(jù)存儲密度相比,硬盤存儲每立方厘米約為1013位,閃存存儲約為1016位,而DNA存儲的密度約為1019位。其次是DNA分子存儲具有穩(wěn)定性。今年2月,國際頂級學術期刊Nature上的一篇論文稱古生物學家在西伯利亞東北部的永久凍土層中提取到距今120萬年猛犸象的遺傳物質,并對其DNA進行了解析,這也進一步刷新了DNA分子的保存年代紀錄。

據(jù)悉,DNA至少可保留上百年的數(shù)據(jù),相比之下,硬盤、磁帶的數(shù)據(jù)最多只能保留約10年。最后,DNA存儲維護成本低。以DNA形式存儲的數(shù)據(jù)易于維護,和傳統(tǒng)的數(shù)據(jù)中心不同,不需要大量的人力、財力投入,僅需要保存在低溫環(huán)境中。在能耗方面,1GB的數(shù)據(jù)硬盤存儲能耗約為0.04W,而DNA存儲的能耗則小于10-10W。

02.低成本擴大規(guī)模可放置數(shù)百萬個DNA序列

上個世紀50年代,科學家已經(jīng)提出創(chuàng)建人造物體與微觀世界的生物特征相似的想法,并且認為該人造物體將具有更加廣泛的能力。不到十年,蘇聯(lián)物理學家米哈伊爾·薩莫伊洛維奇·內(nèi)曼(Mikhail Samoilovich Neiman)就獨立提出了可以利用DNA和RNA分子來進行信息記錄、存儲和檢索的可能性。

DNA進行數(shù)據(jù)存儲的應用真正開始于1988年,藝術家喬戴維斯和哈佛大學的研究人員合作,在大腸桿菌的DNA序列中,將一張代表生命和女性地球的古代日耳曼符文圖片,通過5x7的矩陣存儲到DNA序列中。他們用二進制中的1代表圖片中的暗像素,0代表圖片中的亮像素。在之后的研究中,研究人員提出了多種DNA存儲的編碼方式。

2011年,研究團隊對一本659KB的書籍進行編碼,通過一對一對應,由腺嘌呤或胞嘧啶表示二進制中的0,鳥嘌呤或胸腺嘧啶表示1。然而,最后研究人員檢查數(shù)據(jù)存儲結果時發(fā)現(xiàn),在DNA中出現(xiàn)了22個錯誤。這種一一對應的編碼方式的精度較低。DNA是由四種堿基結合成堿基對,并組成螺旋結構。四種堿基分別是腺嘌呤(A)、胸腺嘧啶(T)、鳥嘌呤(G)、胞嘧啶(C),然后依據(jù)堿基互補配對原則,來排列DNA分子儲存遺傳信息。這四個代碼也為DNA存儲芯片提供了一個合適的編碼環(huán)境。

▲DNA分子結構示意圖

 

DNA存儲技術包括信息編碼、存儲、檢索、解碼四個步驟。在計算機中,數(shù)據(jù)存儲需要用二進制0和1來表示,使用DNA來存儲數(shù)據(jù)首先需要將0和1轉化為DNA中的四個堿基A、C、T、G,創(chuàng)建具有正確堿基序列的DNA螺旋結構。合成DNA后在體內(nèi)或體外進行存儲。

在解碼時,DNA測序儀會轉錄該DNA結構中的堿基序列,通過解碼軟件將其轉化為0和1,還原數(shù)據(jù)信息。2012年,哈佛大學的研究團隊證實,DNA可以作為一種和硬盤驅動器、磁帶類似的存儲介質。他們通過DNA對數(shù)字信息進行編碼,包括53400字節(jié)的HTML草稿,11張JPG圖片和一個JavaScript程序,利用位與堿基一對一映射,但這種方式會使得相同堿基長時間運行,測序過程容易出錯。

這種簡單的一對一編碼形式,在2013年得到了突破。歐洲生物信息學研究所(EBI)的研究人員在論文中稱,他們已經(jīng)實現(xiàn)了超過500萬位數(shù)據(jù)的存儲、檢索和復制,并且所有DNA文件都以99.99%到100%的準確度再現(xiàn)了信息。在編碼過程中,研究小組加入了糾錯編碼方案,并采用了可通過序列識別的重疊短寡核苷酸的編碼方式。此后,哥倫比亞大學、華盛頓大學、帝國理工學院等研究團隊都開展了一系列研究。

為了證明DNA編碼數(shù)據(jù)的長期穩(wěn)定性,2015年2月4日,蘇黎世聯(lián)邦理工學院的研究人員在國際頂級期刊Angewandte Chemie International Edition上發(fā)表了相關論文,研究人員通過Reed-Solomon糾錯編碼和溶膠、凝膠將DNA封裝在二氧化硅玻璃球中來增加冗余,而這可能是DNA存儲芯片的最早期形態(tài)。

2021年11月起,多個研究團隊公布了DNA存儲芯片研究的新進展,包括我國東南大學、微軟研究院、伊利亞諾州西北大學以及佐治亞理工學院的研究小組。11月12日,我國東南大學生物科學與醫(yī)學工程學院、生物電子學國家重點實驗室的劉宏團隊成功將校訓 “止于至善” 存入一段DNA序列中,該論文發(fā)表于Science Advances。

為了實現(xiàn)DNA存儲的微型化、集成化、自動化,該研究小組對測序過程進行了優(yōu)化。基于電化學的單電極DNA合成和測序方法,通過電化學脫保護技術改進傳統(tǒng)亞磷酰胺化學合成方法,并基于電荷震蕩現(xiàn)象對電極表面的DNA分子進行測序,成功將校訓進行編碼和解碼。

▲劉宏團隊基于電化學DNA合成與測序的DNA數(shù)據(jù)存儲系統(tǒng)流程圖(圖片來源為東南大學官網(wǎng))

 

11月24日,微軟研究院與華盛頓大學分子信息系統(tǒng)實驗室(MISL)合作在DNA存儲上取得突破的論文發(fā)表于Science Advances上,該研究小組公布首個納米級DNA存儲寫入器,DNA芯片上的分子控制器和DNA寫入配有PCIe接口,可以一次性構建四股合成DNA,產(chǎn)生包含100個堿基的DNA鏈。微軟研究院稱,更長的DNA鏈會容易出現(xiàn)錯誤,但隨著硬件的發(fā)展,這都會得到改進。

該項實驗證明了DNA螺旋結構擴大存儲規(guī)模的可能性。今年11月29日,伊利諾伊州西北大學合成生物學中心提出了將信息記錄到DNA的新方法發(fā)布于《基因組學研究(Technology Networks)》期刊中,在編碼環(huán)節(jié)他們試圖通過DNA本身具有的能力來創(chuàng)建一種新的數(shù)據(jù)存儲解決方案。

在實驗過程中,他們使用一種新的酶促系統(tǒng)來合成DNA,將快速變化的環(huán)境信號直接記錄到DNA序列中。西北大學工程學教授Keith EJ Tyo稱,通過直接控制合成DNA的酶,可以實現(xiàn)提前表達和連續(xù)存儲信息。為了使DNA數(shù)據(jù)存儲在擴大存儲規(guī)模的同時能降低成本,12月1日,佐治亞理工學院(GTRI)高級研究科學家尼古拉斯·吉斯(Nicholas Guise)在接受外媒英國廣播公司(BBC)采訪時說:“我們新芯片上的功能密度大約比當前的商業(yè)設備高出100倍。”他們設計的芯片可以以極低的成本,通過超密集格式使DNA鏈實現(xiàn)增長,獲得大規(guī)格的存儲容量。

這個微芯片配備了10組幾百納米深的“微孔”,使得DNA分子在這中間平行生長,最終在芯片上積壓了數(shù)百萬個DNA序列。相比于傳統(tǒng)的合成DNA制造過程,這種方法采用電化學局部激活合成,成本更加低廉。

▲佐治亞理工學院(GTRI)研究小組實驗編碼解碼過程(圖片來源為論文插圖)

03.合成2MB需要7000美元讀取需要2000美元

不斷的研究表明,DNA存儲技術將成為跨時代的存儲方式。但從上世紀50年代提出至今,其發(fā)展一直沒有重大的實質性進展。微軟研究院作為DNA數(shù)據(jù)存儲的早期入局者,2015年開始進行相關研究,直到2019年才有研發(fā)進展,他們展示了一個全自動系統(tǒng)來編碼和解碼DNA中的數(shù)據(jù)信息。DNA存儲芯片能夠實現(xiàn)高密度、長時間的存儲特性,但目前該項技術還不能廣泛運用于計算機領域,目前主要針對一些不常用但需要保存的內(nèi)容。

DNA存儲芯片無法商業(yè)化,大概有以下幾點原因。首先,DNA存儲數(shù)據(jù)的寫入和讀取成本高昂。2017年哥倫比亞大學的實驗顯示,合成2MB的DNA數(shù)據(jù)需要7000美元,而讀取數(shù)據(jù)需要2000美元,盡管這相比于2013年每兆12400美元的成本已經(jīng)大大降低,但如果用戶需要以DNA形式儲存1GB的電影,編碼大約需要花費358萬美元,而讀取數(shù)據(jù)還需要102萬美元。其次,DNA存儲數(shù)據(jù)的解碼過程需要大型工具。目前DNA存儲技術的解碼過程,還需要依賴測序儀對DNA分子進行排序,市面上量產(chǎn)的測序儀大多都用于小型實驗室、臨床應用等時效性要求較高的場景,距日常使用還很遠。

▲測序服務供應商Illumina的測序儀產(chǎn)品iSeq 100(圖片來源為Illumina官網(wǎng))

此外,DNA存儲技術的讀寫速度慢。2021年12月初,佐治亞理工學院的研究將DNA存儲速度提升到了每天寫入20GB數(shù)據(jù),目前固態(tài)硬盤的讀寫速度大約為每秒500MB。IDC《數(shù)據(jù)時代2025》的報告顯示,全球每年產(chǎn)生的數(shù)據(jù)在2025年將達到175ZB,相當于每天產(chǎn)生491EB的數(shù)據(jù)。即使DNA存儲芯片的密度足夠大,其實時讀取速度也無法滿足當前的數(shù)據(jù)存儲需求。DNA存儲芯片是未來大容量存儲較為理想的介質,目前的研究進展大部分都處于概念驗證階段,其硬件設備的落地還需要很長一段時間。

04.結語:DNA存儲商業(yè)化的關鍵,實現(xiàn)低成本、高密度

DNA存儲芯片存儲密度高、穩(wěn)定性高、易于維護的優(yōu)勢決定了它成為下一代存儲設備的可能。不過該項技術的進一步商業(yè)化還有很多限制,例如成本高昂、存儲環(huán)境限制較多、實時讀取速度慢等,這些都表明其變成主流存儲設備還有很長一段路要走。

我們處于數(shù)字時代,從智能手機、平板、PC到可穿戴設備每天都會產(chǎn)生大量信息,因此這個現(xiàn)實條件決定,找到性能要求更高且更加低成本的存儲設備迫在眉睫。

DNA的半衰期為521年,在一個冰冷或合適的條件下,DNA可以持續(xù)存在數(shù)十萬年,甚至幾百萬年,如果DNA存儲技術真正實現(xiàn)商用,在未來,我們的數(shù)據(jù)檔案可能將變成“化石”留存下來。

作者 |  程茜
編輯 |  Panken

相關推薦

電子產(chǎn)業(yè)圖譜