《为什么蛋白质设计的未来依赖于云计算和机器学习》

  • 来源专题:人类遗传资源和特殊生物资源流失
  • 编译者: yanyf@mail.las.ac.cn
  • 发布时间:2019-02-25
  • 想象一下你所见过的最美丽的珍珠串。它由20种不同颜色的珍珠组成,每一种都有其独特的特点——有些是金属的,有些是闪亮的,有些是珍珠般的。没有任何一串珍珠像这一串——改变颜色珠子的顺序,整个串就会改变。它是专门为它所属的人而创建的。

    现在想象一下,这串珍珠不是给你戴在身上的。事实上,它甚至不能用肉眼看到。蛋白质是使生命成为可能的珍珠串。它们是由20种不同氨基酸串在一起的独特组合而成。氨基酸有其独特的特性——有些喜欢水,有些讨厌水,有些是酸性的——它们的特定顺序决定了蛋白质在人体内的功能——或者蛋白质来自细菌、植物或其他有机体。潜在的组合——因此,函数——是无穷小的。正因为如此,蛋白质是合成生物学工具箱中的关键工具。

    蛋白质折叠问题

    合成生物学家可以通过以下两种方式之一来利用蛋白质的力量:优化和构建自然界中已经存在的蛋白质,或者创造一种蛋白质来完成自然界中未观察到的全新功能。无论采用哪种方法,都将面临同样的问题:蛋白质折叠问题。

    蛋白质折叠问题的根源在于使蛋白质如此多才多艺的特性:组成蛋白质的氨基酸组合不计其数。蛋白质不是简单的氨基酸链。不,这生物串珍珠一个复杂的三维结构,由阿尔法螺旋和β床单,和一些蛋白质有几个子单元——所有的这些都是由每个氨基酸的独特性质,以及他们如何相互作用由于特定的序列。

    平均蛋白质长约300氨基酸——它并不需要一个数学家算出多么困难是一个人从一个一维的300个氨基酸序列和预测序列将自组织成有功能的细胞中三维结构。

    蛋白质设计问题

    合成生物学家为复杂、优雅的新功能从头创造蛋白质,也面临着蛋白质折叠问题:蛋白质设计问题。合成生物学家通常不是从一串氨基酸开始预测其三维结构,而是从他们想要的折叠蛋白的模型开始,这种模型的形状可以实现他们想要的特定功能。然后,他们必须逆向工作,确定正确的氨基酸序列以形成功能蛋白。让问题变得更加困难的是,完美的序列可能在自然界中从未存在过,这意味着它们真的是从头开始。

    幸运的是,蛋白质折叠和蛋白质设计问题都可以通过单一元素来解决:对氨基酸相互作用的物理学有很好的理解,从而建立一个模型,用于预测特定的序列是否具有所需的功能。但是人类不能用纸和笔做出这些模型。相反,他们必须利用计算机的力量。这种工业化的计算蛋白质设计正是西雅图合成生物学公司Arzeda Corporation所采用的方法。

    云计算:主要蛋白质设计试剂

    Arzeda为他们的合作伙伴和客户提供新产品和改进现有产品的方法简单而复杂:获取所需的功能,对其进行计算建模,识别可能产生具有所需功能的蛋白质的序列,构建和表达候选基因,瞧!新的或改良的蛋白质。

    由于蛋白质折叠和蛋白质设计问题,要想成功地按照Arzeda每天执行的规模设计蛋白质,需要进行大量的预先计算——这需要一种非常重要的试剂:云计算。据Arzeda的首席执行官兼联合创始人Alexandre Zanghellini称,该公司在2018年在云计算上花费了超过15万美元,并有望在2019年投入50万美元。这是因为要及时地执行他们过程的第一步——计算蛋白质建模——需要成千上万台计算机。这相当于将一个手工过程转变成一个高度精炼的工业过程。

    “我们使用多个云服务提供商,我们开发了具体的软件工具能够使用大量的蛋白质所需的CPU和分发的工作是设计一个完全自动化的方式,这相比你通常看到的学术世界,我们能做的,在这样一个规模,在这样一个自动化的方式,我们可以把人类的方程,“Zanghellini说。

    通过机器学习理解复杂的数据

    Zanghellini说:“蛋白质设计是一个非常复杂的问题,有很多自由度,有很多不同的组成部分,因此它是复杂性的最好例子之一,它具有人类大脑无法做到的几个方面。”据他说,机器学习有很大的潜力去发现可以用于蛋白质设计的相关性和模式——这远远超出了工程师或计算机科学家的能力。

    针对DeepMind技术项目AlphaFold,该项目展示了将人工智能和深度学习应用于蛋白质设计问题的强大力量,Zanghellini说:“我相信这将是该领域的一个重大发展,我们(Arzeda)希望走在这方面的前沿。”

    蛋白质折叠

    来源:https://deepmind.com/blog/alphafold

    展望更远的未来,Zanghellini看到了诸如改进的图形处理单元(gpu)、现场可编程门阵列(FPGA)芯片和量子计算等技术,这些技术大大加快了蛋白质设计的速度。但是,他说,这一切的关键可能是我们都非常熟悉的一项技术:DNA合成和更快、更便宜、更长的片段的可用性。他说,这一点非常重要,如果Arzeda在10年前上市,那么由于当时DNA合成的成本,公司可能无法生存。毕竟,世界上所有的计算能力都不能保证你的蛋白质按照计算机预测的方式运行——体外快速蛋白质功能测试是蛋白质设计成功的最后关键部分。

    Zanghellini总结道:“这一切归结于你能多快测量你的蛋白质是否起作用。他说:“这是一个巨大的进步。公司……正在研究这些东西,(这)立即转化为一个数量级的更多样本被测试,这反过来意味着更多的机器学习和(方法)改进。”

    最近,Zanghellini与SynBioBeta的John Cumbers就这些话题进行了交谈,并在SynBioBeta播客上进行了更多的讨论,与合成生物学的主要思想家就如何用生物学构建一个更美好的世界进行了交谈。播客将在几周后发布。为了听到Zanghellini所说的关于蛋白质设计的一切,一定要注册我们的新闻摘要,注册我们的新闻摘要,并将这一集添加到您的播放列表中。

相关报告
  • 《为什么你的下一个项目经理可能是机器人》

    • 来源专题:宽带移动通信
    • 编译者:wangxiaoli
    • 发布时间:2018-10-08
    • 在过去的几年里,项目管理一直处于一场革命的阵痛之中。其迭代周期更短,项目团队更散,交付结果的压力更大。与此同时,根据ProjectManagement.com最近的一项研究,新兴技术正在为项目管理部创造新的机会来处理这些变化中的事务。由最先进的项目管理部提供的自动化和数据可视化工具为管理人员做出明智的决策提供了他们需要的工具。但是,如果许多决策可以由软件本身做出呢? 这就是机器学习带给人们的希望——它将比你想象的更快地改变团队、管理和项目本身的面貌。 机器人的引入 如今的项目管理系统通常依赖于手动输入(如工时表和状态更新)来帮助管理者做出关于任务分配和资源分配的决策。更复杂的系统,比如Oracle项目的集成管理云服务系统,可以从企业的其他部门(如财务)提取更多的数据,并将其呈现为高级的可视化的数据类型。然而,几年后,人工智能和机器学习可能会独立客观地做出这些决定,而无需人工输入。软件机器人(通常简称为“机器人”)可以构建项目计划、分配任务,和分配资源。这些机器人能够从组织内外的任意数量输入中进行学习,来改进这些决策,从而提高效率和速度。这并不意味着我们将完全取缔项目经理。 相反,有机器人协助做出这些战术决策,项目经理可以更加关注战略,使组织的项目组合与战略优先级保持一致。项目经理还将作为团队的指挥,监控总体趋势、发现不可预见的机会,并为解决手头的问题带来创新性的思维方法。 项目团队在革新… 项目团队必然不会再是以前的样式了。敏捷的自发管理团队正在创建一个动态的项目交付环境,来取代僵化的组织层次结构。团队成员可能分布在全国或全球各地,通过社交工具进行协作,并重视发挥个人的技术特长,而不是广泛意义上的技术专长。无论是外部承包商、内部点对点团队,还是两者兼而有之的模式,机器人都能自然地适应这种日益普遍的“随机工作”模式。该模式类似于拼车服务,在这种服务中,潜在的团队成员可以在他们希望的时间(和地点)提供服务,而系统则根据可用性、专业性和其他标准分配任务。 然后,人工智能系统将确保这些完全不同的元素在时间和预算层面能作为一个整体集成在一起。 当障碍或问题出现时,管理型机器人就像GPS系统一样,能够找到替代线路,或者向人工操作员报告问题的解决方案。 …项目同样在发展 随着机器人变得越来越复杂,项目本身的特性很可能会随之发生变化。 事实上,这一未来工作模型的基本要素已经就位。“敏捷方法”的影响推动了一种更加迭代的方法的形成;各组织正在精简规划窗口、提升交付节奏以满足需求。结果的复杂性和速度,对人类来说可能难以追踪,但对机器人来说却非常适合。智能自动化可以缩短产生识别需求和实现解决方案之间的延迟。与此同时,它将使得利益和价值实现最大化。大量的、有潜在破坏的打包项目将让位给更小的、有增值效益的贸易交付,这将有助于兑现持续改进的承诺。 需要:云服务中的端到端企业资源计划系统 机器学习需要高质量的数据——很多的数据。这就是为什么项目管理型机器人将依赖联网的企业资源计划云服务系统来完成各个功能领域之间的信息交换。特别是金融业,将从下一代自动化中获益良多。机器人将使项目保持在预算和投资回报率的参数范围内,同时实时向财务部门提供关于成本和收入影响的信息。除了企业资源计划系统提供的结构化数据外,机器人还可以从物联网、“数据即服务”等非结构化系统中提取大数据,学习优化项目成本和预测投资回报率的新方法。 内置设备和软件根本不能保证提供足够的现成数据来训练机器。 人工智能和机器学习的未来在云服务中。而这一切将把我们带往何处仍是一个悬而未决的问题。为了确保您的企业是面向未来的,请选择那些能够提供预测分析和智能自动化的解决方案。比如Oracle就将嵌入式机器学习应用到了金融、人力资源、供应链和客户体验云应用中。
  • 《RNA-蛋白质网络可以解释为什么黑色素瘤增长更多》

    • 来源专题:动植物疫病
    • 编译者:刘小燕
    • 发布时间:2018-12-16
    • 对于远程转移性疾病患者,5年生存率约为30%,皮肤黑色素瘤是导致皮肤癌相关死亡的主要原因。黑色素瘤患者存活率极低的主要原因是缺乏BRAF突发的患者选择数量有限,以及对现有疗法的内在和获得性抗性。因此,必须开发新的治疗策略,帮助根除耐药细胞,针对患者不管其驱动突变。由比利时KU Leuven和日本东京农业技术大学(TUAT)的科学家领导的合作揭示了一种对抗黑色素瘤的新方法。他们发现了黑色素瘤特异性长的非编码RNA,命名为SAMMSON,与蛋白质CARF相互作用,以正确协调黑色素瘤细胞的细胞质和线粒体中的蛋白质的合成。该机制确保在细胞生长期间维持蛋白质稳态,从而避免诱导细胞死亡。因此,预期抑制SAMMSON或/和CARF的物质是黑色素瘤的新治疗方式。