当前位置:存储企业动态 → 正文

浅析Microsoft DNA存储

责任编辑:editor004 作者:Sergio De Simone |来源:企业网D1Net  2016-05-05 11:48:51 本文摘自:INFOQ

Microsoft正在实验用人工合成DNA实现数字化数据存储,并于最近向遗传学初创公司Twist Bioscience购买了一千万条DNA。

据悉Microsoft有关DNA存储的实验是与华盛顿大学(University of Washington)合作进行的。联合研究团队最近提交了一份描述下图所示完整DNA归档存储系统架构述的论文。

DNA存储系统由一个对数据进行编码,以便将数据存储在DNA中的DNA合成器;一个包含大量“隔间”,将DNA的存储池与数据卷进行映射的存储容器;以及负责读取DNA序列并将其重新转换为原始数据的DNA序列器组成。

DNA存储技术目前有个非常有趣的问题需要解决:寻址。DNA链是DNA存储的基本单位,DNA链由大约100-200个核苷酸组成,可存储50–100比特信息。这意味着一个典型的数据对象需要映射至大量DNA链。研究人员目前使用了键-值架构,因此这里的关键在于首先需要关联至包含所需链的池,随后通过随机访问机制访问池中的链。

另一个有趣之处在于数据的呈现方式。DNA由4个碱基(A、C、G、T)组成,因此base-4是最直接的数据呈现方法,例如01110001可通过base-4的方式转换为1301,并映射为DNA序列中的CTAC结构。然而除此之外,研究人员还选择了一种base–3呈现方式,借此可通过一个核苷酸实现纠错。那么在上述的例子中,01100001可转换为base-3格式的01112,并映射至为DNA序列中的CTCTG结构。

有关DNA存储原理的详细信息,包括如何通过编码改善可靠性,以及目前进行过的几个实验,可参阅上文提及的PDF论文。

根据Twist Bioscience公司介绍,相对传统数字化存储,基于DNA的归档技术可提供两个重要优势:寿命更长,最新研究数据显示DNA数据存储的寿命高达2000年;并且数据密度更高,一克DNA即可存储一兆GB数据。

根据Microsoft和华盛顿大学研究人员的介绍,DNA存储并不是闪存或硬盘的替代品:

我们将DNA存储视作一种最持久的深层存储体系,可提供高密度且持久的归档存储方案,以及数小时乃至数天的访问时间。

这种想法的重点在于,DNA的合成和排序可以任意程度的序列化方式进行,因此可以轻松获得所需的读写带宽。

Microsoft公司DNA存储项目主管Doug Carmean澄清说,他们使用Twist提供的DNA进行初步测试“证明了数字化数据可通过这种方式进行编码,并可100%还原为原始数据”,但在这种技术正式商用之前还有很多工作有待完成。

作者:Sergio De Simone 

关键字:MicrosoftDNA序列

本文摘自:INFOQ

x 浅析Microsoft DNA存储 扫一扫
分享本文到朋友圈
当前位置:存储企业动态 → 正文

浅析Microsoft DNA存储

责任编辑:editor004 作者:Sergio De Simone |来源:企业网D1Net  2016-05-05 11:48:51 本文摘自:INFOQ

Microsoft正在实验用人工合成DNA实现数字化数据存储,并于最近向遗传学初创公司Twist Bioscience购买了一千万条DNA。

据悉Microsoft有关DNA存储的实验是与华盛顿大学(University of Washington)合作进行的。联合研究团队最近提交了一份描述下图所示完整DNA归档存储系统架构述的论文。

DNA存储系统由一个对数据进行编码,以便将数据存储在DNA中的DNA合成器;一个包含大量“隔间”,将DNA的存储池与数据卷进行映射的存储容器;以及负责读取DNA序列并将其重新转换为原始数据的DNA序列器组成。

DNA存储技术目前有个非常有趣的问题需要解决:寻址。DNA链是DNA存储的基本单位,DNA链由大约100-200个核苷酸组成,可存储50–100比特信息。这意味着一个典型的数据对象需要映射至大量DNA链。研究人员目前使用了键-值架构,因此这里的关键在于首先需要关联至包含所需链的池,随后通过随机访问机制访问池中的链。

另一个有趣之处在于数据的呈现方式。DNA由4个碱基(A、C、G、T)组成,因此base-4是最直接的数据呈现方法,例如01110001可通过base-4的方式转换为1301,并映射为DNA序列中的CTAC结构。然而除此之外,研究人员还选择了一种base–3呈现方式,借此可通过一个核苷酸实现纠错。那么在上述的例子中,01100001可转换为base-3格式的01112,并映射至为DNA序列中的CTCTG结构。

有关DNA存储原理的详细信息,包括如何通过编码改善可靠性,以及目前进行过的几个实验,可参阅上文提及的PDF论文。

根据Twist Bioscience公司介绍,相对传统数字化存储,基于DNA的归档技术可提供两个重要优势:寿命更长,最新研究数据显示DNA数据存储的寿命高达2000年;并且数据密度更高,一克DNA即可存储一兆GB数据。

根据Microsoft和华盛顿大学研究人员的介绍,DNA存储并不是闪存或硬盘的替代品:

我们将DNA存储视作一种最持久的深层存储体系,可提供高密度且持久的归档存储方案,以及数小时乃至数天的访问时间。

这种想法的重点在于,DNA的合成和排序可以任意程度的序列化方式进行,因此可以轻松获得所需的读写带宽。

Microsoft公司DNA存储项目主管Doug Carmean澄清说,他们使用Twist提供的DNA进行初步测试“证明了数字化数据可通过这种方式进行编码,并可100%还原为原始数据”,但在这种技术正式商用之前还有很多工作有待完成。

作者:Sergio De Simone 

关键字:MicrosoftDNA序列

本文摘自:INFOQ

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^