DNA存儲作為生物技術與信息技術相融合的主要方向之一,近年來受到廣泛關注。DNA存儲的編解碼,即比特與堿基之間的轉換,是DNA存儲中最重要的環(huán)節(jié)之一,不僅決定信息轉換的效率(信息密度),還直接影響存儲信息的穩(wěn)定性及可靠恢復性。從2012年起,編解碼技術的發(fā)展主要聚焦于提升信息密度,而技術兼容性和原始信息的穩(wěn)定恢復方面的考慮尚不全面。2017年以前,編解碼技術都未能實現(xiàn)完全的技術兼容,產(chǎn)生序列的GC含量很大程度上還是依賴于原始數(shù)據(jù)的0/1分布情況。2017年,美國哥倫比亞大學研究團隊開發(fā)的DNA噴泉碼幾乎解決了這一問題,但直接套用的信道編碼技術有較強的數(shù)據(jù)類型偏好性,因此在實際的存儲應用中存在較高的數(shù)據(jù)無法恢復風險的問題。
沈玥在實驗室 研究團隊供圖
該論文的通訊作者沈玥告訴《中國科學報》,為解決這一問題,他們將從DNA雙鏈模型中受到的啟發(fā),與中華文化中“陰陽”對立統(tǒng)一的思想相結合,巧妙地應用于DNA編解碼系統(tǒng),以兩套不同的規(guī)則,分別對兩條二進制信息進行“一對一”編譯轉換,再取兩者統(tǒng)一交集的部分為最終解,實現(xiàn)將兩條獨立的信息組合統(tǒng)一為一串DNA序列;另一方面,通過引入篩選機制,他們將與現(xiàn)有合成測序技術兼容性不佳的序列通過預先設置的篩選條件進行過濾。根據(jù)不同的組合方法,該系統(tǒng)共能提供1536種不同的編碼規(guī)則組合,大大擴展了其應用場景范圍。
研究人員還通過編碼學的理論推導以及不同數(shù)據(jù)類型文件的模擬編碼,證明了該系統(tǒng)在保證信息密度的前提下,在數(shù)據(jù)恢復穩(wěn)定性方面體現(xiàn)顯著的性能提升(存儲數(shù)據(jù)的平均恢復率較DNA噴泉碼現(xiàn)有水平提升近兩個數(shù)量級)。
平質在實驗室 研究團隊供圖
該論文的共同第一作者、深圳華大生命科學研究院助理研究員平質告訴記者,近年來用細胞進行DNA信息存儲也受到了極大關注,為此,他們還測試了該系統(tǒng)在酵母細胞內存儲、傳代后的數(shù)據(jù)恢復穩(wěn)定性。結果證明,作為載體的酵母菌株經(jīng)過1000代以上的傳代,信息仍可以被完整恢復,該存儲方式接近天然DNA分子存儲物理信息密度的理論極限,每克DNA能存儲的信息量約為 432.2EB。
該研究開發(fā)了一種全新的DNA存儲編碼方法,并提出1536種不同編碼規(guī)則組合的方案,為DNA存儲的多類型應用提供了重要工具,有望在海量數(shù)據(jù)長期存儲的新型介質研究中起到積極的推動作用。
相關論文信息:
https://doi.org/10.1038/s43588-022-00231-2
https://doi.org/10.1038/s43588-022-00235-y
頭條 22-04-30
頭條 22-04-30
頭條 22-04-30
頭條 22-04-30
頭條 22-04-30
頭條 22-04-30
頭條 22-04-30
頭條 22-04-30
頭條 22-04-30
頭條 22-04-30
頭條 22-04-30
頭條 22-04-29
頭條 22-04-29
頭條 22-04-29
頭條 22-04-29
頭條 22-04-29
頭條 22-04-29
頭條 22-04-29
頭條 22-04-29
頭條 22-04-29
頭條 22-04-29
頭條 22-04-29
頭條 22-04-29
頭條 22-04-29
頭條 22-04-29
頭條 22-04-29
頭條 22-04-29
頭條 22-04-29
頭條 22-04-29
頭條 22-04-29
頭條 22-04-29
頭條 22-04-29
頭條 22-04-29
頭條 22-04-29
頭條 22-04-29
頭條 22-04-29
頭條 22-04-29
頭條 22-04-29
頭條 22-04-29
頭條 22-04-29
頭條 22-04-29
頭條 22-04-29
頭條 22-04-29
頭條 22-04-29
頭條 22-04-27
頭條 22-04-27
頭條 22-04-27
頭條 22-04-27
頭條 22-04-27
頭條 22-04-27
頭條 22-04-27