点击右上角微信好友
朋友圈
点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮
作者:张成、钱珑(分别系北京大学计算机学院副研究员,北京大学定量生物中心副研究员)
新年致读者
你好,2025!
新的一年,《新科技》将继续在每周四陪伴新老读者。
我们将继续关注科技前沿,为您送上最新最酷的科技成果。
我们将持续做好科学普及,传播科学精神,为全民科学素养的提高积蓄点滴力量。
我们将聚焦科技新政,深度解析政策背后的内涵与深意。
我们将凝眸科技工作者,为那些在科技强国建设中躬身奉献的科技人点赞。
2025年,是“十四五”规划的收官之年,也是将全面深化改革推向纵深的关键之年。让我们一起,感受科技的力量,为加快实现高水平科技自立自强,喝彩!鼓劲!
在数字化飞速发展的时代,我们产生和需要存储的数据量呈爆炸式增长。传统的存储方式,如硬盘、磁带等,正面临存储容量有限、维护成本高以及存储设备寿命短等诸多限制。自20世纪60年代起,DNA分子因其高存储密度、高稳定性和易复制等特点,逐渐步入大众视野,成为未来存储技术的新希望。“DNA可以用作信息存储介质吗?”作为信息领域的前沿热点,被国际学术期刊《科学》列入125个科学问题之一。2022年,我国“十四五”规划将DNA存储列为与新一代移动通信技术、量子信息、第三代半导体等并列的新兴技术。
揭开DNA存储的神秘面纱
DNA,即脱氧核糖核酸,是生物体内承载遗传信息的大分子。它由腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)、胞嘧啶(C)四种核苷酸按特定顺序排列而成,恰似计算机代码中的0和1,共同编织出生命的遗传密码。
DNA存储技术就是巧妙利用了DNA的这一特性,将数字化信息转化为DNA序列进行存储。简单来讲,就是把我们日常使用的二进制数据,比如电脑文件等,依据特定编码规则,转变为由A、T、G、C组成的DNA序列。例如,一段二进制代码通过编码,能够转化为一串DNA序列,再将合成好的DNA置于一定环境中,DNA信息存储便得以实现。
DNA数据存储的历史,可追溯至20世纪60年代中期,美国麻省理工学院教授维纳和苏联物理学家涅曼首次提出“遗传记忆”概念,但受限于当时DNA测序与合成技术,只是一个初步构想。1988年,哈佛大学教授戴维斯第一次设计并合成了一个包含18个核苷酸的DNA片段,并且将其转移至大肠杆菌中,这标志着DNA存储的首次实验实现。受戴维斯启发,全球其他科学研究团队也开始了基于DNA分子的活细胞存储研究。直到2012年,哈佛大学教授丘奇和欧洲生物信息学研究所科学家戈德曼实现了突破性科学进展,通过创新性的编码方式以及先进的生物技术手段,首次将图书内容完整存入DNA之中,充分展示出DNA作为存储介质的巨大潜力。
作为生物的遗传物质,DNA分子具有高密度的特点。理论上来说,1克DNA大约能存储215PB数据,相当于1000万小时左右的高清视频。据报道,1吨DNA分子的存储容量甚至能装得下全球所有数据总量。这为解决海量数据存储问题,开拓了广阔前景与新思路。
同时,DNA具有高度稳定性,在适宜条件下,DNA可保存数千年乃至更久。科学家从远古生物化石中提取DNA并开展研究分析的实例,充分证明了DNA极强的稳定性和长久保存信息的能力。相比硬盘等传统存储介质几年到十几年的使用寿命,DNA存储优势显著。
此外,在推行低碳可持续发展的时代背景下,DNA存储维护的低能耗优势不容小觑。传统存储方式能耗较高,而DNA存储额外耗能极低——合成并存储完毕后,在日常环境下便可保存信息。这对节能减排意义重大。
DNA存储何以实现
那么,如何实现DNA存储?
第一步,将数据写入DNA:数据与DNA序列转换的桥梁——编码。
编码是DNA存储的首要步骤,是将二进制数据转化为DNA序列。要实现精确编码,需制定严谨的编码规则。科学家通常依据DNA核苷酸合成的限制和数据的存储需求进行设计。比如,规定每2个二进制位对应一种核苷酸组合,00对应A,01对应T,10对应G,11对应C等。
不过,将数字信息准确编码为DNA序列并非易事,需要设计合适的编码算法和方案。一方面要确保信息能够完整、准确地合成为DNA序列,另一方面还要考虑编码效率和冗余度等问题,以便在后续存储和读取过程中实现高效操作。此外,传统DNA存储以化学合成的方式逐个加入代表信息的核苷酸,只能串行写入分子信息,当存储大量数据时,面临存储速度慢、成本高的问题。
第二步,构建存储信息的DNA分子:编码完成后,按编码的顺序逐个加入核苷酸,合成DNA链。
目前常用的传统化学合成方法是基于磷酰胺的化学合成法,但考虑到其合成速度慢、成本高等缺点,科学家也在探索新型DNA合成技术。其中,酶促合成法备受关注,它利用DNA聚合酶等催化DNA合成反应。
与传统方法相比,酶促合成法操作简单、步骤简便,但同时也存在酶的活性调控困难、精确数量的序列合成控制难等问题。
近年来,主流DNA存储技术是基于“从头合成”路线,串行进行分子信息写入。尽管从头合成技术在通量和效率上不断提高,但串行合成的底层本质仍严重影响了DNA存储写入速度和成本,阻碍了DNA存储的实用化发展。
第三步,存储与读取技术:保障数据的保存与恢复。
DNA存储对环境条件要求比较宽泛,一般需将合成好的DNA保存在低温、干燥且避光的环境中。低温(通常零下20摄氏度甚至更低)和干燥能有效减缓DNA分子降解速度;避光则是为了防止光照引发DNA分子的损伤,从而保障存储数据准确性。而读取DNA存储数据的方法,就是DNA测序。需依靠DNA测序技术获取其核苷酸序列。目前主流的DNA测序技术有桑格测序法、NGS测序和纳米孔测序等。
并行DNA存储突破传统技术瓶颈
针对DNA存储信息串行写入的问题,北京大学DNA存储团队突破传统“从头合成”串行写入路线,提出了一种基于并行写入策略的新型DNA存储策略(该研究工作于2024年发表在《自然》上)。这种方法通过DNA自组装介导的选择性酶促甲基化(表观遗传修饰),对DNA中特定位点进行甲基化,以实现信息编码,避免了对从头合成DNA的依赖。这种方法被形象地比喻为DNA上的活字印刷技术,不仅可以加快信息的写入速度,并且由于采用预制的分子活字块和长链模板,方便批量操作,极大降低了存储成本。
首先预先合成700种“DNA活字”和5条DNA长链“白纸”模板。通过人工设计,使得每个“活字”块都可通过DNA自组装锚定到模板上的特定位置。其中,每个位置的DNA“活字”有两种:携带或不携带甲基修饰,分别代表0或1。随后,通过甲基转移酶介导半甲基化转移,将模板中的特定位置甲基进行转移,从而实现并行的选择性分子信息写入。
研究团队使用有限的预制DNA活字和长链模板排版编程,在自动平台上实现约27.5万个比特的并行甲基修饰信息写入,单次反应分子写入通量为350比特,极大提高了DNA存储的信息写入通量(从头合成的DNA数据存储中单个反应约1比特的输出量)。
这项技术的核心突破在于,能通过预制的DNA模板和活字块,在分子底层以排版的方式并行打印表观比特(epi-bit)信息,实现分子数据的精确高通量写入,进而完成大规模并行DNA存储。与传统DNA数据存储方法相比,这种活字印刷并行写入方式仅需有限数量的预制DNA分子,避免了复杂烦琐DNA序列编码过程,不仅大幅降低分子信息写入复杂度,还能降低成本、提高操控灵活性。
虽然DNA存储技术在持续进步,但仍面临一些亟待破解的问题。
DNA合成和测序成本仍较为高昂。DNA合成需复杂化学工艺和高端设备,导致DNA存储的成本居高不下。同样,尽管测序技术持续进步,但准确测序成本仍然较高,这使得DNA存储难以应用于现实生活。与硬盘等传统存储设备的读取速度相比,DNA存储走向实用化差距明显。此外,在DNA存储过程中,写入和读取环节错误率较高。例如,写入过程可能出现不正确的修饰等错误,读取时也可能因测序误差导致还原数据不准确等。这些分子数据存储自身存在的问题,将影响DNA存储的可靠性和实用性。
尽管如此,DNA仍是最具广阔应用前景的存储方式之一。
——在长期冷数据存储方面,像国家历史档案、珍贵文物资料这类需要长期保存的数据,DNA有着超长存储时间以及高存储密度的优势,是理想的存储方式。将这些数据存于DNA中,哪怕过了数千年依然能完好读取,有力保障了人类文明的传承。
——在航天领域,航天活动中数据存储的能耗和太空复杂环境是关键的考量要点。而DNA存储具备低能耗、高存储密度和高稳定的特性,因此有望适用于该领域。比如,科学家可以把航天器飞行数据、科学实验数据等存储在DNA中,既能减轻存储设备重量,又能在能源有限条件下实现数据的长期保存。
——在生物医学领域,DNA可用来存储大量的基因数据、医疗诊断照片和病人病历等。随着个性化医疗不断发展,对于患者个体基因数据长期保存以及准确读取的需求也在持续增加。
——在私人数据存储方面,并行DNA存储技术,由于操作简单、环境需求低和预制合成等特点,特别适合于高隐私要求的私人定制DNA存储应用。这也有望推动DNA存储的实用化发展,走入千家万户。
DNA存储作为新兴技术,已展现出巨大优势。未来,它很可能成为数据存储的重要方式之一,为海量数据存储与相关领域的发展提供有力支持。
《光明日报》(2025年01月02日 16版)