2020年7月16日PNAS报道,一个跨学科研究小组开发了一种新方法,可以以前所未有的准确性和效率将DNA存储的信息翻译出来,为DNA存储技术在大数据时代更加广泛的应用提供重要技术保障。
人类正在以前所未有的速度创造信息,这促使人们开发一种更加有效、大量和持久的存储信息的方式。DNA存储效率是传统存储方法的500万倍,DNA存储迅速成为一种耐久的高密度信息存储方式。然而,目前基于DNA的信息编码策略在DNA合成和测序过程中错误率都很高,需要将保存的信息片段重复10到15次,以确保信息正确保存和读取。
此次研究者开发一种修复三种基本类型的DNA错误(插入,删除和替换)的HEDGES(Hash Encoded, Decoded by Greedy Exhaustive Search)纠错代码。HEDGES还可以纠正其他复合错误,结合标准Reed-Solomon外部代码进行更正。此外,HEDGES可以纳入一些用户定义的序列约束,例如避免重复过多,或者鸟嘌呤-胞嘧啶(GC)含量太高或太低。
通过计算机模拟和合成DNA来测试代码,根据其性能,研究者开发了适用于更大数据集的统计模型,该模型可以从降解程度高达10%的DNA中正确无误地恢复PB级别和EB级别的数据。研究者表示,随着DNA合成和测序成本的不断降低,HEDGES将在大规模准确信息编码中找到更多应用。
吴晓燕 编译自https://phys.org/news/2020-07-power-dna.html
原文链接:https://www.pnas.org/content/pnas/early/2020/07/15/2004821117.full.pdf
原文标题:HEDGES error-correcting code for DNA storage corrects indels and allows sequence constraints