《借助深度学习开发合成生物学新工具》

  • 来源专题:生物科技领域知识集成服务
  • 编译者: 陈方
  • 发布时间:2020-11-16
  • 2020年10月7日Nature Communication同时发表的两篇论文显示,哈佛大学怀斯研究所和麻省理工学院的两个科学家小组开发了一套机器学习算法,可以分析大量基于RNA的“toehold”序列,并预测哪些序列对感应和响应所需的目标序列最有效。该算法可以推广到合成生物学中解决其他问题,加快生物技术工具的发展,推动科学和医学研究进步。

    toehold开关是一种可编程的工程RNA元件,能检测小分子、蛋白质和核酸。但目前该工具在实际应用中往往不能达到预期效果。研究者希望通过增强深度学习的模式识别来改善这种情况。研究者利用深度神经网络(Deep Neural Networks,DNN)来预测作为合成生物学中典型核糖体转换模型的toehold开关功能。为了促进DNN训练,研究者合成并表征了涵盖23个病毒基因组和906个人类转录因子的91,534个toehold开关的数据集。经过核苷酸序列训练的DNN表现优于先前的最新热力学和动力学模型,并通过人类容易理解的可视化方法(Visualizing Secondary Structure Saliency Maps,VIS4Map)识别成功和失败的模式。

    实验中研究者建立了两个优化模型。第一个模型主要基于卷积神经网络(convolutional neural network,CNN)和多层感知器(multi-layer perceptron ,MLP),将toehold序列视为一维图像或核苷酸碱基行,识别碱基的模式以及这些碱基之间的潜在相互作用,预测良好和欠佳的toehold序列。基于该模型的优化方法叫做基于序列的toehold优化和重新设计模型(Sequence-based Toehold Optimization and Redesign Model,STORM),STORM可以从头开始对toehold序列进行完全重新设计,最适合生成新的toehold开关,以执行特定功能,作为合成遗传电路的一部分,能够创建复杂的生物工具。

    第二种模型基于自然语言处理(natural language processing ,NLP),并将每个toehold序列视为由“单词”模式组成的“短语”,最终学习了如何将某些单词组合在一起以构成连贯的短语。将基于NLP的模型与基于CNN的模型集成在一起,创建了被称为核酸语音(Nucleic Acid Speech,NuSpeak)的优化方法,可以重新设计给定toehold开关的最后9个核苷酸,同时保留其余21个核苷酸完整。该技术允许创建旨在检测特定病原性RNA序列的存在的toehold,并可以用于开发新的诊断测试。

    该团队通过优化旨在检测SARS-CoV-2病毒基因组片段的toehold开关来验证这两种优化方法。NuSpeak将传感器的性能平均提高160%,而STORM创建了四个SARS-CoV-2病毒RNA传感器的改进版本,其性能提高了28倍。STORM和NuSpeak平台可以快速设计和优化合成生物学组件,也可用于其他基于RNA序列的场景,例如诱导型启动子和天然存在的核糖开关。

相关报告
  • 《科学家发明了合成生物学新工具》

    • 来源专题:再生医学与健康研发动态监测
    • 编译者:malili
    • 发布时间:2017-07-26
    • 加州大学圣地亚哥分校的研究人员发明了一种控制跨细菌菌落基因表达的新方法。该方法涉及到工程动态DNA拷贝数变化。研究结果发表在2017年7月10日的在线《自然遗传学》( Nature Genetics)上,由美国国家科学基金会资助。 目前,控制或编程细菌细胞的方法涉及转录和转录后调控。由生物学和生物工程教授Jeff Hasty领导的加州大学圣地亚哥分校的研究人员,联合加州大学圣地亚哥分校微生物组创新中心的成员描述了一种新的方法,该方法涉及到切割被称为“质粒”的细菌DNA环状片段,有效地破坏DNA从而关闭调控功能。 研究结果还阐明了如何通过增加DNA浓度以开启基因合成通路。通过控制DNA拷贝数,研究人员可以有效调控基因表达。 合成生物学是一门工程学科,它可以通过改变生物系统来实现某些目的。该领域于2000年建立,它主要描述生物合成通路,是设计细胞用来执行某些功能的一部分,类似于电子电路的工作方式。同样地,与电子电路类似,由生物通路执行的任务可以开启和关闭。与此同时,研究人员还描述了“基因时钟”的操作:将基因按照特定的顺序排列,这样它们就会在特定的时间打开。这种方法可以帮助研究人员了解自然界的“振荡器”,比如我们的睡眠—觉醒节律周期。 现在,Hasty和他的团队正在为合成生物学家的工具箱添加一个新的工具—一个可以让研究人员协调细菌细胞中的子过程的“主时钟”。研究人员使用了一种从酿酒酵母(Saccharomyces cerevisiae)中提取的核酸内切酶,与包含核酸酶识别序列的质粒一起表达,使质粒拷贝数暂时降低,低于细胞正常水平。 研究人员推断,这种方法可以用来调控一整套基因和启动子,并通过他们之前研究成果(点击查看)中构建的通路来验证了他们的想法,在跨大肠杆菌细胞菌落中产生了持续循环的DNA质粒浓度。该循环使用了一种已知的小分子AHL来协调跨细菌菌落间的基因表达。被启动子激活的AHL基因也被激活,得益于AHL的这种正向反馈环,更多的AHL积累,并产生更多的AHL。因为AHL是小分子,足以在细胞间扩散并启动相邻细胞中的启动子,并进而激活其调控的基因表达而达到较高的浓度,导致所知的群体感应现象。 (冯若燕 编译 )
  • 《与五家使用AI工程生物学的合成生物学公司会面》

    • 来源专题:人类遗传资源和特殊生物资源流失
    • 编译者:yanyf@mail.las.ac.cn
    • 发布时间:2019-09-24
    • 电视和广播称“人工智能即将来临”,它将接替您的工作并在国际象棋上击败您。 但是,人工智能已经来临了,它可以在国际象棋上击败您,这是世界上最好的。在2012年,Google还使用它来识别YouTube视频中的猫。今天,这就是特斯拉拥有Autopilot,Netflix和Spotify似乎“读懂你的思想”的原因。现在,人工智能正在改变合成生物学的领域以及我们如何设计生物学。它可以帮助工程师设计出新的方法来设计基因回路,并且通过已获得的巨额投资(过去10年中的12.3亿美元)及其正在破坏的市场,它可能对人类的未来产生重大影响。 人工智能的概念相对简单,它是具有推理,学习和决策行为的机器编程。一些AI算法(只是计算机遵循的一组规则)在这些任务上非常出色,以至于可以轻易胜过人类专家。 我们听到的关于人工智能的大多数信息都涉及机器学习,这是AI算法的子类,可以从数据中推断出模式,然后使用该分析进行预测。这些算法收集的数据越多,其预测就越准确。深度学习是机器学习的一个更强大的子类别,其中大量称为神经网络(受大脑结构启发)的计算层协同工作以增加处理深度,从而促进诸如高级面部识别(包括iPhone上的FaceID)之类的技术)。 [有关人工智能及其各个子类别的更详细说明,请查看本文及其流程图。] 无论AI的类型或用途如何,我们都处于计算革命之中,它将其卷须扩展到“计算机世界”之外。很快,AI将影响您服用的药物,燃烧的燃料,甚至是您用来洗衣服的洗涤剂。 特别是生物学,是人工智能最有希望的受益者之一。从调查导致肥胖的遗传突变到检查癌细胞的病理样本,生物学产生的数据非常复杂,令人费解。但是,这些数据集中包含的信息通常提供有价值的见解,可用于改善我们的健康状况。 在合成生物学领域,工程师寻求“重新连接”活生物体并为其编程以新功能,许多科学家正在利用AI设计更有效的实验,分析其数据并使用其来创建突破性的疗法。这是五家将机器学习与合成生物学相结合的公司,为更好的科学和更好的工程铺平了道路。 Riffyn催化干净的数据收集和分析 (加州奥克兰,成立于2014年,已筹集了2490万美元) 机器学习算法必须从大量数据开始-但是,在生物学上,要生成好的数据非常困难,因为实验耗时,繁琐且难以复制。幸运的是,有一家公司正在通过简化科学家的工作来解决这一瓶颈。 Riffyn基于云的软件平台可帮助研究人员标准化,定义和执行实验,并简化数据分析,这使研究人员能够专注于进行实际的科学研究,并使使用机器学习算法从他们的实验中获得更深刻的见识成为日常现实。 使用此平台,可以更有效地进行实验,从而导致成本大幅下降,生产率和质量得到改善,并且准备使用复杂的机器学习技术进一步分析数据。这意味着公司可以使用这项技术来开发用于癌症治疗的新蛋白质,并且他们可以比以前更快,更好地做到这一点。里芬(Riffyn)已经与15家全球生物技术和生物制药公司中的8家进行了合作-他们成立于五年前。 Microsoft Research Station B:汇集编程生物学的难题 (英国剑桥,于2019年正式启动) 合成生物学世界中有许多活动的部分,这使得尽可能简化和整合操作变得困难而至关重要。在过去的十年中,Microsoft Research的计算生物学部门B站一直在开发生物学的机器学习模型,以解决此问题并加快从医学到建筑的各个领域的研究。 它的努力也以各种新的伙伴关系的形式获得了回报。借助Synthace,它正在开发用于自动化和加速实验室实验的软件。 B站还与普林斯顿大学合作,通过利用基于机器学习的方法从生物生长不同阶段拍摄的图像中提取图案,研究生物膜背后的机制(与细菌菌落如何产生抗生素抗性有关)。 B站还与牛津生物医学公司合作,该公司利用这些机器学习功能来改善针对白血病和淋巴瘤的有前途的基因疗法。这也许是合成生物学影响最大的领域之一:设计与多种疾病作斗争的疗法。 Atomwise:深度学习解码结构蛋白设计的黑匣子 (总部位于美国加利福尼亚州旧金山,成立于2012年,已筹集了5100万美元) Atomwise正在通过其称为AtomNet的深度学习平台来应对药物开发,该平台可以快速对分子结构进行建模。它可以准确地分析小分子内的化学相互作用,从而预测针对埃博拉病毒至多发性硬化症等疾病的功效。通过利用有关原子结构的数据,Atomwise设计了新颖的疗法,否则将几乎不可能开发。 他们与包括Charles River Laboratories,默克,多伦多大学和杜克大学医学院在内的机构建立了众多学术和公司合作伙伴关系,这些机构正在提供许多现实世界的应用程序和机会来推动这项研究的发展。他们最近还宣布了与江苏汉寿药业集团的高达$ 1.5B的合作,该公司是今年最大的生物制药IPO之一。 尽管Atomwise的分子设计方法功能强大且可以有效抵抗多种疾病,但还没有一种完美的方法来进行计算发现。那就是Arzeda进来的地方。 Arzeda:使用从头深度学习重写蛋白质设计规则 (华盛顿州西雅图市,成立于2008年,已筹集了1520万美元) Arzeda是一家来自华盛顿大学贝克实验室的公司,利用其蛋白质设计平台(当然植根于机器学习算法)来对蛋白质进行工程改造,从工业酶到农作物及其微生物群落。 Arzeda完全从零开始(或从头开始)构建其分子,而不是优化现有分子,以执行自然界中未发现的新功能;深度学习技术对于确保其设计的蛋白质正确折叠(非常复杂的计算问题)并按预期发挥功能至关重要。一旦完成计算步骤,就可以通过发酵(就像啤酒一样)来生产新蛋白质,而绕过自然进化过程以有效地生产全新的分子。 分布式生物:彻底改变流感,癌症,蛇咬等的未来 (加利福尼亚州南旧金山,成立于2012年,由许可技术自筹资金) 在设计范围的另一端,Distributed Bio利用合理的蛋白质工程技术来优化现有的抗体,这些抗体是您体内的蛋白质,可以检测细菌并与其他引起疾病的入侵者抗争,从而创造出新颖的疗法。 Tumbler平台是该公司拥有的众多免疫工程技术之一(从通用流感疫苗到广泛覆盖的蛇抗蛇毒)。 Tumbler使用机器学习方法创建了超过5亿种起始抗体变体,以扩展和量化分子中哪些变化最有价值的搜索空间。然后,它会对序列进行评分,以预测它们在现实生活中与目标的结合程度,并使用“有价值的变化”信息进一步改善得分最高的序列。随着最高级序列的合成和在实验室中的测试,生产周期继续进行。最终,原型分子应运而生,以实现预期的治疗目的-自然界中不一定观察到这种现象,而是结合了所有可能的最佳特征。 Tumbler已帮助实现了超越传统单一靶标药物开发的广泛应用-从设计可同时与多个靶标结合的抗体到创建嵌合抗原受体T细胞(CAR-T)治疗(与Chimera Bioengineering一起)用于癌症治疗具有降低的毒性,此端到端优化平台大规模产生理想抗体的能力是空前的。 尽管这一进展令人兴奋,但人工智能并不是我们对自然界研究的普遍替代,也不是开发治疗人类疾病的唯一方法。有时,它在技术上可能没有用,甚至从道德上讲也不是合理的。随着我们继续获得这项技术的好处并将其日益融入我们的日常生活中,我们必须继续就合成生物学和AI创新的设计,实施和道德操守进行对话。我们站在科学和人类新时代的悬崖上。 ——文章发布于2019年9月19日