想象一下你所见过的最美丽的珍珠串。它由20种不同颜色的珍珠组成,每一种都有其独特的特点——有些是金属的,有些是闪亮的,有些是珍珠般的。没有任何一串珍珠像这一串——改变颜色珠子的顺序,整个串就会改变。它是专门为它所属的人而创建的。
现在想象一下,这串珍珠不是给你戴在身上的。事实上,它甚至不能用肉眼看到。蛋白质是使生命成为可能的珍珠串。它们是由20种不同氨基酸串在一起的独特组合而成。氨基酸有其独特的特性——有些喜欢水,有些讨厌水,有些是酸性的——它们的特定顺序决定了蛋白质在人体内的功能——或者蛋白质来自细菌、植物或其他有机体。潜在的组合——因此,函数——是无穷小的。正因为如此,蛋白质是合成生物学工具箱中的关键工具。
蛋白质折叠问题
合成生物学家可以通过以下两种方式之一来利用蛋白质的力量:优化和构建自然界中已经存在的蛋白质,或者创造一种蛋白质来完成自然界中未观察到的全新功能。无论采用哪种方法,都将面临同样的问题:蛋白质折叠问题。
蛋白质折叠问题的根源在于使蛋白质如此多才多艺的特性:组成蛋白质的氨基酸组合不计其数。蛋白质不是简单的氨基酸链。不,这生物串珍珠一个复杂的三维结构,由阿尔法螺旋和β床单,和一些蛋白质有几个子单元——所有的这些都是由每个氨基酸的独特性质,以及他们如何相互作用由于特定的序列。
平均蛋白质长约300氨基酸——它并不需要一个数学家算出多么困难是一个人从一个一维的300个氨基酸序列和预测序列将自组织成有功能的细胞中三维结构。
蛋白质设计问题
合成生物学家为复杂、优雅的新功能从头创造蛋白质,也面临着蛋白质折叠问题:蛋白质设计问题。合成生物学家通常不是从一串氨基酸开始预测其三维结构,而是从他们想要的折叠蛋白的模型开始,这种模型的形状可以实现他们想要的特定功能。然后,他们必须逆向工作,确定正确的氨基酸序列以形成功能蛋白。让问题变得更加困难的是,完美的序列可能在自然界中从未存在过,这意味着它们真的是从头开始。
幸运的是,蛋白质折叠和蛋白质设计问题都可以通过单一元素来解决:对氨基酸相互作用的物理学有很好的理解,从而建立一个模型,用于预测特定的序列是否具有所需的功能。但是人类不能用纸和笔做出这些模型。相反,他们必须利用计算机的力量。这种工业化的计算蛋白质设计正是西雅图合成生物学公司Arzeda Corporation所采用的方法。
云计算:主要蛋白质设计试剂
Arzeda为他们的合作伙伴和客户提供新产品和改进现有产品的方法简单而复杂:获取所需的功能,对其进行计算建模,识别可能产生具有所需功能的蛋白质的序列,构建和表达候选基因,瞧!新的或改良的蛋白质。
由于蛋白质折叠和蛋白质设计问题,要想成功地按照Arzeda每天执行的规模设计蛋白质,需要进行大量的预先计算——这需要一种非常重要的试剂:云计算。据Arzeda的首席执行官兼联合创始人Alexandre Zanghellini称,该公司在2018年在云计算上花费了超过15万美元,并有望在2019年投入50万美元。这是因为要及时地执行他们过程的第一步——计算蛋白质建模——需要成千上万台计算机。这相当于将一个手工过程转变成一个高度精炼的工业过程。
“我们使用多个云服务提供商,我们开发了具体的软件工具能够使用大量的蛋白质所需的CPU和分发的工作是设计一个完全自动化的方式,这相比你通常看到的学术世界,我们能做的,在这样一个规模,在这样一个自动化的方式,我们可以把人类的方程,“Zanghellini说。
通过机器学习理解复杂的数据
Zanghellini说:“蛋白质设计是一个非常复杂的问题,有很多自由度,有很多不同的组成部分,因此它是复杂性的最好例子之一,它具有人类大脑无法做到的几个方面。”据他说,机器学习有很大的潜力去发现可以用于蛋白质设计的相关性和模式——这远远超出了工程师或计算机科学家的能力。
针对DeepMind技术项目AlphaFold,该项目展示了将人工智能和深度学习应用于蛋白质设计问题的强大力量,Zanghellini说:“我相信这将是该领域的一个重大发展,我们(Arzeda)希望走在这方面的前沿。”
蛋白质折叠
来源:https://deepmind.com/blog/alphafold
展望更远的未来,Zanghellini看到了诸如改进的图形处理单元(gpu)、现场可编程门阵列(FPGA)芯片和量子计算等技术,这些技术大大加快了蛋白质设计的速度。但是,他说,这一切的关键可能是我们都非常熟悉的一项技术:DNA合成和更快、更便宜、更长的片段的可用性。他说,这一点非常重要,如果Arzeda在10年前上市,那么由于当时DNA合成的成本,公司可能无法生存。毕竟,世界上所有的计算能力都不能保证你的蛋白质按照计算机预测的方式运行——体外快速蛋白质功能测试是蛋白质设计成功的最后关键部分。
Zanghellini总结道:“这一切归结于你能多快测量你的蛋白质是否起作用。他说:“这是一个巨大的进步。公司……正在研究这些东西,(这)立即转化为一个数量级的更多样本被测试,这反过来意味着更多的机器学习和(方法)改进。”
最近,Zanghellini与SynBioBeta的John Cumbers就这些话题进行了交谈,并在SynBioBeta播客上进行了更多的讨论,与合成生物学的主要思想家就如何用生物学构建一个更美好的世界进行了交谈。播客将在几周后发布。为了听到Zanghellini所说的关于蛋白质设计的一切,一定要注册我们的新闻摘要,注册我们的新闻摘要,并将这一集添加到您的播放列表中。