2020年10月7日Nature Communication同时发表的两篇论文显示,哈佛大学怀斯研究所和麻省理工学院的两个科学家小组开发了一套机器学习算法,可以分析大量基于RNA的“toehold”序列,并预测哪些序列对感应和响应所需的目标序列最有效。该算法可以推广到合成生物学中解决其他问题,加快生物技术工具的发展,推动科学和医学研究进步。
toehold开关是一种可编程的工程RNA元件,能检测小分子、蛋白质和核酸。但目前该工具在实际应用中往往不能达到预期效果。研究者希望通过增强深度学习的模式识别来改善这种情况。研究者利用深度神经网络(Deep Neural Networks,DNN)来预测作为合成生物学中典型核糖体转换模型的toehold开关功能。为了促进DNN训练,研究者合成并表征了涵盖23个病毒基因组和906个人类转录因子的91,534个toehold开关的数据集。经过核苷酸序列训练的DNN表现优于先前的最新热力学和动力学模型,并通过人类容易理解的可视化方法(Visualizing Secondary Structure Saliency Maps,VIS4Map)识别成功和失败的模式。
实验中研究者建立了两个优化模型。第一个模型主要基于卷积神经网络(convolutional neural network,CNN)和多层感知器(multi-layer perceptron ,MLP),将toehold序列视为一维图像或核苷酸碱基行,识别碱基的模式以及这些碱基之间的潜在相互作用,预测良好和欠佳的toehold序列。基于该模型的优化方法叫做基于序列的toehold优化和重新设计模型(Sequence-based Toehold Optimization and Redesign Model,STORM),STORM可以从头开始对toehold序列进行完全重新设计,最适合生成新的toehold开关,以执行特定功能,作为合成遗传电路的一部分,能够创建复杂的生物工具。
第二种模型基于自然语言处理(natural language processing ,NLP),并将每个toehold序列视为由“单词”模式组成的“短语”,最终学习了如何将某些单词组合在一起以构成连贯的短语。将基于NLP的模型与基于CNN的模型集成在一起,创建了被称为核酸语音(Nucleic Acid Speech,NuSpeak)的优化方法,可以重新设计给定toehold开关的最后9个核苷酸,同时保留其余21个核苷酸完整。该技术允许创建旨在检测特定病原性RNA序列的存在的toehold,并可以用于开发新的诊断测试。
该团队通过优化旨在检测SARS-CoV-2病毒基因组片段的toehold开关来验证这两种优化方法。NuSpeak将传感器的性能平均提高160%,而STORM创建了四个SARS-CoV-2病毒RNA传感器的改进版本,其性能提高了28倍。STORM和NuSpeak平台可以快速设计和优化合成生物学组件,也可用于其他基于RNA序列的场景,例如诱导型启动子和天然存在的核糖开关。