基因组DNA具有优良的耐久性和生物功能兼容性,是人工生物信息储存的理想介质。如今, DNA测序吞吐量大幅度提升、测序成本不断下降、基因编辑技术方便地对遗传信息进行修改、大容量信息可以在活细胞中进行处理和储存,DNA作为信息存储工具的优势日益明显。体内DNA编写的动态基因组工程技术(dynamic genome-engineering technologies)为工程学和其他生命科学研究开辟了一条崭新的道路。本文概述了当前体内DNA编写技术要点,总结了这些技术在各种生物和生物医学环境下的应用和前景。
1 DNA编写器(DNA writers)
DNA编写器是对活细胞内所含DNA进行有针对性、动态和重复修饰的基因编辑装置。修饰包括目标基因插入、删除、反转或替换突变等。大致可以分为两大类:精确和伪随机编写器。
1)精确的DNA编写器
第一类是位点特异性重组酶(site-specific recombinases),属于效率最高和研究最成熟的一类精确DNA编写器,根据识别位点,这些酶可翻转或切除位于其同源位点之间的一段DNA。主要用于数字记录和建立数字计算分层合成基因电路。
第二类依赖于逆转录酶(reverse transcriptase,RT)介导的体内单链DNA(ssDNA)表达,随后重组以实现顺式元件独立的DNA编写。该系统可提供中等书写效率和更宽的分子记录动态范围,不需要靶位提供顺式编码元件,适合用于进化工程。
第三类通过碱基编辑实现,例如将胞嘧啶脱氨酶结构域与dCas9融合,通过表达互补gRNA,产生脱氧胞嘧啶(dC)至脱氧胸腺嘧啶(dT)突变。该方法比其他精确DNA编辑器更具可扩展性,也可以与调节模块一起功能化实现复杂的记录和计算操作。
2)伪随机DNA编写器
第一类依赖于位点特异性核酸酶(如CRISPR-Cas9)产生的靶向双链DNA(dsDNA)断裂,然后通过非同源末端连接途径(NHEJ)易错修复断裂。在此过程中,每个单细胞可以获得靶位点中的伪随机突变特征(即插入缺失突变)。一些研究使用这些突变特征作为条形码,在斑马鱼和其他小动物胚胎发育过程中原位追踪细胞谱系。
第二类依靠Cas1和Cas2蛋白(介导CRISPR细菌免疫系统)。Cas1-Cas2复合体从ssDNA池取样,将ssDNA片段(大约20-30碱基对)整合到CRISPR阵列,随时间推移进行阵列扩展,同时片段添加事件的时间顺序在阵列中得以保留。研究证明人工数字信息(例如小图片和电影)可被编码到寡合苷酸池中,然后被细胞群体的分散基因组DNA记录。
2 DNA编写器应用
1)分子记录
生物系统中的许多分子事件是非常短暂的,难以检测和研究。利用DNA编写创建分子记录仪,捕捉这些瞬态信号,并稳定地将它们编码到单个细胞或细胞群体DNA中。累积下来的突变可通过DNA测序或功能分析加以检索,以推断原始信息。
(1)基础科研
发育生物学家可以使用分子记录仪研究分化线索和发育途径;癌症生物学家可以使用DNA分子记录仪来研究肿瘤发展,深入了解肿瘤微环境中与癌症异质性有关的细胞和环境线索;免疫学家可以使用DNA分子记录仪来研究免疫细胞成熟、记忆形成和免疫应答过程中的信号转导;微生物学家可以利用这些记录器来研究细菌群落和生物膜(biofilms)内的信号动力学和分子相互作用。目前这些记录主要用于体外装置以及群体读数,未来需要在单细胞水平改进记录技术,或在活体动物中证明分子记录器的转化应用,目前原位生物学纵向研究还存在一定限制,施加最小适应度效应的内存体系结构是应对体内环境挑战的重要因素。
(2)活生物传感器
非生物传感器不能有效感知生物系统相互作用。活细胞可以响应各种生物线索,DNA编写技术可用于创建活生物传感器以纵向监测环境或体内健康。例如,口服携带疾病生物标志物传感器的细菌偶联DNA记录器,监测胃肠道疾病生物标志物,并在它们离开体内后报告这些信息;携带分子记录器的人类细胞被部署到器官组织以报告疾病(如癌症或神经变性)早期征兆;具有记录能力的工程细胞和动物可用于连续监测和记录生物和环境线索(如毒素、重金属、代谢物和光),无需人工电源和不方便移动的设备,到达非生物传感器不易接近的地方。与基础研究类似的是,未来的挑战在于存储器的结构开发,以实现最小化适应性效应和记录能力扩展。
(3)脑图谱
绘制大脑神经回路是目前生命科学最大的挑战之一。基于DNA的“自动收报磁带”电路(DNA-based ticker tape circuits)是在分辨率和吞吐量方面都表现较好的方案,可动态记录神经活动的时空变化。现有的分子记录的时间分辨率比神经脉冲长几个数量级,但它们仍可被用于研究神经活动平均时间,例如通过天然活性响应元件(如直接早期基因启动子)将神经活动与分子记录器相连。携带这些遗传记录器的活体动物因受到不同神经刺激而导致的不同突变特征,可用来推断跨全脑的平均时序活动。或者,编码可以通过突触的可移动遗传元件(如狂犬病或伪狂犬病病毒),再通过DNA条形码来区分神经连接,利用高分辨率、高通量的DNA条形码技术映射连接体。尽管面临技术挑战,但分子记录技术将会是破译大脑功能结构的一个强大动力。
2)细胞工程进化
(1)体内连续进化
体内DNA写入技术可实现突变目标基因片段,在短时间内实现有方向性的遗传多样性改造。如果与连续选择相结合,就可以连续定向进化以改善细胞的某些特质,满足生物工程技术或治疗应用。分子记录器无需最小化适应性效应(实现稳定记录),选择压力指导向期望结果的进化轨迹上。
(2)合成Lamarckian进化
活细胞在特定条件下根据特定信号局部提高突变率。例如,在抗体成熟、CRISPR-Cas9间隔区获得和来自噬菌体和细菌的多样性逆转录元素生成过程中,一系列活跃的调节分子事件导致某些基因组位点的发生靶向诱变,这种Lamarckian进化策略可以提高细胞群体在不确定环境下的整体适应性,并帮助它们以比随机达尔文突变更快的速度适应环境的变化。基于这种进化策略开发的抗菌剂能比天然噬菌体更快地适应感染新宿主。
3)精确DNA编辑器的应用
(1)分层分子记录、计算和人工学习基因电路
由精确的DNA编辑器产生的突变,因其精确和定义特质,可被分层于更复杂的遗传回路中,其中一种元素的突变结果作为其他元素的输入。多个存储器之间建立明确的关于输入信号的形式记录,这种策略已经被用于记录多种形式的组合、顺序和时序以及其他日益复杂的计算操作。此外,这种遗传程序赋予细胞人工学习能力,例如它们可以逐渐加强(或降低)对特定电路的响应,这与神经元的突触互连增强非常相似。
(2)高通量交互和活动映射
短暂的细胞事件,例如蛋白质-蛋白质之间的相互作用,可以转化为转录输出,被DNA记忆捕捉。例如,一个精确的DNA编写器的N端和C端结构域与条码诱饵和猎物分别融合以记录蛋白质-蛋白质相互作用。在研究相互作用网时,重组一个功能DNA编写器,在诱饵特异性条形码旁边写入一个猎物特异性条形码,然后通过序列检索,以高通量的方式识别库中的交互伙伴关系。类似的策略同样适用RNA活性和蛋白质变异文库高通量功能研究。
4)伪随机DNA编写器的应用
(1)谱系追踪
在发育过程中捕获细胞祖先关系并创建相应谱系图(特别是大型动物),是细胞发育生物学一直以来的一大挑战。传统上,静态的遗传和非遗传条形码方法被用于谱系追踪,一旦细胞接收一个条形码,就会将其无差别地传递给后代,因此造成谱系树分辨率较低。而DNA编写器可灵活地创建动态遗传条形码,从而实现高分辨率谱系图。伪随机DNA编写器在谱系追踪上独具优势,因为它们可以从初始克隆群体出发生成许多不同的突变特征。
3 结论与展望
过去几年,基因组经历了从“只读”到“编写”的华丽转变。DNA编写技术将基因组DNA转化为动态介质,在活细胞中处理和存储生物和人工信息。这些进展为基础研究、生物技术和医学的发展带来了新一代强有力的工具方法。DNA编写技术虽然取得了实质性的进展,但仍需改进现有的存储器体系结构,开发具有特需特性的新存储器体系结构,特别是在记录容量、可扩展性、稳健性、适应性效果、电池消耗、编写周期、时序性和记录动力学等。这些技术有望进一步提高我们以动态、纵向和多路复用的方式操纵生物自然记忆储存。