《Nature评论|安进呼吁通力合作,为人工智能提供正确数据,加快药物研发》

  • 来源专题:战略生物资源
  • 编译者: 李康音
  • 发布时间:2023-10-18
  • 2023年9月19日,安进(Amgen)的高级研发总监Marissa Mock、 生物治疗中心研发副总监Suzanne EdavettalNature等人在Nature上发表了一篇题为“AI can help to speed up drug discovery — but only if we give it the right data”的评论,呼吁同行通力合作,以更快的速度和更低的成本开发出药品。

    蛋白质药物只有不到 10% 的候选药物在临床试验中获得成功,每种药物的潜在成本高达数十亿美元,并且在患者等待治疗的过程中浪费了数年的时间。由于蛋白质可以有一个以上的结合域,因此可以设计出能附着于一个以上靶点的疗法,例如,既能附着于癌细胞,也能附着于免疫细胞。将两者结合在一起,就能确保消灭癌细胞。所以,基于蛋白质的药物具有广泛的治疗潜力。

    要打破药物开发的瓶颈,就必须改进蛋白质药物在体内作用的计算机模型。要对未来的候选药物做出更好的预测,需要收集大量数据,了解以前的候选药物在临床试验中成功或失败的原因。要训练有效的机器学习模型,需要数百或数千个蛋白质的数据。但是,即使是最有成果的生物制药公司,在 2011 年到 2021 年间,平均每年也只启动了 3-12 项蛋白质疗法的临床试验(见 go.nature.com/3rclacp)。单个制药公司,无法独自积累足够的数据。将人工智能纳入药物研发管线可能会有所帮助。

    生物技术与尖端科技的结合

    药物开发是一项劳动密集型工作,耗费大量时间。任何阶段的失败都意味着要从头开始。生物制药公司正在利用人工智能加快药物开发。机器学习模型利用以往候选药物的氨基酸序列或三维结构信息以及相关特性进行训练。训练后,人工智能模型就能识别数据中的模式。如果给定蛋白质的氨基酸序列,模型就能预测蛋白质将具有的特性,或设计出一个"改进"版本的序列,估计其将赋予所需的特性。随着预测能力的提高,有朝一日这种模型可能会从头开始设计有效的药物。

    简而言之,这种融合了尖端生命科学、高通量自动化和人工智能(被称为生成生物学)的技术极大地提高了药物开发人员预测蛋白质在溶液中的稳定性和行为的能力。现在,我们公司在开发候选药物直至临床试验阶段所花费的时间比五年前减少了 60%。但事实证明,与药物在体内的行为有关的特性仍无法预测,尤其是具有多个靶点的复杂药物。要训练有效的机器学习模型,需要数百或数千个蛋白质的数据。为了积累足够的数据,生物制药公司需要共享特定氨基酸序列的物理特性、蛋白质的靶向分子以及药物在体内的作用方式等信息。然而,这些数据也是商业资产,能让开发商以极具竞争力的速度将治疗药物推向市场。机器学习的两种专门方法可以提供一条出路,使公司能够在不泄露竞争数据的情况下集中资源。

    联邦学习

    机器学习模型经过训练后,可在获得更多数据时进行更新。有了"联邦学习 (Federated learning)" ,各方可以使用数据集更新共享模型,而无需共享基础数据。 联邦学习如何为生物制药公司所用?值得信赖的一方--技术公司或专业咨询公司--将维护一个"全局"模型,该模型最初可以使用公开数据进行训练。该方将向每家参与的生物制药公司发送全球模型,后者将利用公司自身的数据对其进行更新,以创建新的"本地"模型。受信任方将汇总本地模型,生成更新的全球模型。这一过程可以重复进行,直到全局模型基本上停止学习新模式。

    我们参与的小分子药物联合学习项目MELLODDY表明,这种方法是有效的(www.melloddy.eu)。在该项目中,安进公司和其他九家制药公司利用 2,100 多万个候选小分子药物的药理学和毒理学数据,对共享的联邦学习模型进行了为期三年的训练。所有十家合作伙伴使用共享模型预测小分子药物特性的效果都优于使用自己现有的模型。大多数公司在预测小分子如何被人体吸收、分布、代谢和排泄方面的能力提高了 10% 以上。

    主动学习

    "主动学习(Active learning)"方法利用了机器学习模型可以检测到不寻常的输入(例如,与训练数据中的氨基酸序列截然不同的氨基酸序列),并提醒用户其对该输入的预测是不可靠的。 通过主动学习,算法可以确定对这类异常氨基酸序列进行更可靠预测所需的训练数据。生物制药公司已经开始使用主动学习技术。现在,它应该与联邦学习相结合,以提高预测效果,尤其是针对更复杂的特性。

    抗体是最常见的蛋白质药物类型,因此可获得的数据也最多。可以利用联邦学习来汇集每家公司已开发或在临床试验中测试过的抗体信息。然后,主动学习将揭示一组值得描述的抗体序列,以提高模型的预测能力。这些序列可以从观测抗体空间数据库中选择,该数据库是一个公共资料库,其中列出了十亿多种天然存在抗体的氨基酸序列。使用公开的序列可以避免泄露专利药物靶点的风险。

    促进协作竞争

    蛋白质药物研发公司尚未采取必要的措施来实现联邦学习和主动学习。我们鼓励生物制药公司组成联合体,共享联合学习和主动学习平台。根据我们在 MELLODDY 项目上的经验,认为以下因素将是促成合作竞争的关键。参与者必须共同为其模型选择一个平台。技术公司已经建立了与行业无关的基础设施来实现联邦学习(如英伟达 FLARE;go.nature.com/3pa8qwr)。技术或咨询公司应得到所有参与者的共同认可,成为全球共享模型可信赖的第三方。

    合作成本低。需要投资来格式化历史数据集供机器学习模型使用、获取主动学习算法所需的新数据、安装和运行软件以及提供法律咨询。但这笔投资只相当于使用传统方法开发药物成本的一小部分,尤其是考虑到合作开发的模型应使未来的药物开发工作成本更低。准确决定联盟应共享哪些测量数据和指标。我们建议,来自体外测试的药理学和稳定性数据以及来自临床试验的数据应纳入共享范围,重点是预测能为人们带来最大益处的特性。公司应致力于扩大临床测量,将已知会影响人们是否对药物产生免疫反应的因素包括在内。

    保护自己的竞争利益。我们建议联盟的每个创始成员共享最低数量的数据,以此作为访问平台的条件。初始模型训练完成后,主动学习将提供一种机制来计算模型的当前值,新的参与者将通过贡献增加设定值的数据集来加入联盟。

    根据我们在 MELLODDY 项目上的经验,我们预计每个参与者看到的改进会有所不同。但所有参与者最终都会发现,他们能以更快的速度和更低的成本开发出药品。我们正站在药物开发的转折点上。未来,我们有可能利用生物生成技术,开发出多特异性蛋白质药物。我们呼吁同行通力合作,加快这一激动人心的未来的到来。

    本文内容转载自“ 智药邦”微信公众号。

    原文链接: https://mp.weixin.qq.com/s/jNHHnP-OMm8dZUbJaGPsmg

  • 原文来源:https://doi.org/10.1038/d41586-023-02896-9
相关报告
  • 《人工智能帮助新药研发》

    • 来源专题:中国科学院文献情报制造与材料知识资源中心 | 领域情报网
    • 编译者:冯瑞华
    • 发布时间:2018-12-03
    • 在古代,神农尝百草,这其实就是人工筛选药物的过程。 在现代,看过电影《我不是药神》的人也会知道,新药研发的成本是极高的。 在综艺节目《奇葩说》中,经济学家薛兆丰提到:每一款新药研发的周期大约是20年,平均每款新药的研发费用高达20亿美元。 所以,新药研发是一个高风险高回报的行业。 人工智能时代,情况有了很大的变化,人工智能可以对新药研发有很大的帮助。 药的分类 要理解人工智能对新药研发的帮助,首先需要对药物做一个大致的分类。从药物分子的大小来分,一般可以把药物分为二类。 1. 化学药 化学药的起效成分是单一、明确的化学小分子,分子量通常小于 1000 道尔顿(也就是1000个质子质量)。这种药可以通过实验室化学合成制备,其分子结构可以用紫外可见分光光度计,核磁共振与红外光谱仪等仪器鉴定。这种药物分子可以直接进入细胞产生药效。 著名的阿司匹林(aspirin)就是一种化学药,阿司匹林于1899年3月由德国化学家发明,可用于治疗感冒、发热、头痛等病症。再比如伟哥(viagra)是由美国辉瑞研制开发的一种口服治疗男性性功能障碍的药物,在音乐人李宗盛等人演唱的《最近比较烦》这首歌中,有这样一句“我梦见和饭岛爱一起晚餐, 梦中的餐厅灯光太昏暗, 我遍寻不着那蓝色的小药丸”,这个蓝色的小药丸就是伟哥 ,这也是一种化学药。 2. 生物药 生物药一般是抗体、蛋白(多肽)、核酸类药物,分子量通常远大于1000 道尔顿。所以生物药是大分子药。 比如治疗糖尿病的人工胰岛素就是一种生物药。1958年,中国科学院在王应睐、曹天钦、邹承鲁、钮经义、沈昭文等先生的带领下,正式启动人工合成胰岛素项目,1966年取得巨大成功。我国人工合成的胰岛素其实就是一种人工合成的蛋白质分子,这是一种生物药。 对于人工智能新药研发来说,多数情况下比较适合处理化学药,对于大分子生物药的研发,目前的人工智能技术还有点力不从心。 新药研发与药物靶点 要理解新药研发,我们还要看一下为什么一个人会生病——因为药物是用来治病的。从分子生物学的角度来说,有的病情是由于分子的表达缺失引起的,比如胰岛素降低引起糖尿病;也有的病情是因为分子的表达过强引起的,比如组胺过高引起过敏。 那么,人为什么会生病呢?因为身体是由细胞组成的,细胞是由化学小分子和生物大分子共同组成,它们并不是简单地拼凑在一起,而是相互级联作用构成一个复杂庞大的网络,不同的生理功能可以看成这个巨大网络中一条条串联的线路。 我们身体的疾病,除了外科损伤之外,多数是这个网络上某个线路发生了异常,这就好像某条交通线发生了堵塞一样。吃药的目的就是打开这个拥堵点。这个拥堵点也就是药物分子需要作用的“靶点”。 在分子生物学出现之前,没有药物靶点这个概念。在那个时候,无论是全球各地的草药,还是偶然发现的青霉素,都是根据经验、猜测或者迷信来揣度人体的发病原因。中药就是其中一个例子,一般中药有副作用,这就是因为中药不是根据分子生物学设计出来的,所以它的靶点很散乱,相当于是用散弹枪去打靶,而现代西药则好像是用狙击枪去打靶。 因此,人体内的所有分子都可能成为潜在的靶点,这些分子有可能在细胞膜上,或者在细胞质里,有些可能在细胞核里;这些分子也可能在血液里,或者在大脑中——不同分子的特点不同。比如抗体等生物大分子只能与体液和细胞膜上的分子结合,而化学小分子则更容易穿透细胞膜甚至进入细胞核发挥作用。不同药物进入体内的方式是不同的,一个好的药物需要保证它们不要在进入体内的途中损失掉(比如被胃液的酸性腐蚀等等)。而且药物的设计必须有很好的靶向性,比如有的药需要进入大脑,那么就需要穿过血脑屏障;有的药为了不影响婴儿,则希望它不要透过母婴屏障。最好的药物设计的标准是:设计出来的药只与想治疗的器官和分子发挥作用,而不产生其他的副作用。但是,由于生物功能是一条线路,这个线路上可能不止一个分子有成为靶点的潜力,因此要找到最关键的靶点才会最有效果。但事情没有那么简单,在生物体中,同样一个分子可能是多功能的,如果抑制了这个分子,可能就会引起其他正常功能的损伤,这就是产生副作用,有些副作用还很严重,因此,要选择非常干净特异的分子作为药物靶点。 药物靶点这个概念是分子生物学发展的产物,尤其是基因测序技术发展起来之后才有的新概念。通过研究找到真正作用的原因(分子机理),可以为药物研发提供了新的原理。 人工智能帮助新药研发 人工智能是需要有大数据作为原料的,而新药研发领域其实是一个大数据非常丰富的宝库,因此这为人工智能提供了用武之地。比如1959年《药物化学》杂志创刊至今,至少发表了45万种化合物作为药物的研究对象,这是一个巨大的数据库,对于这样的大数据,人工智能可以发挥它的独特作用。 不久前,《科学美国人》与世界经济论坛发布了2018年十大新兴技术,人工智能辅助化学分子设计——机器学习算法加速新药研发就是其中之一。 目前,在全球有至少100家企业正在探索新药研发的人工智能方法,在国外,葛兰素史克、默克、强生与赛诺菲公司都已经布局人工智能新药研发。在中国,也涌现了深度智耀、零氪科技与晶泰科技等人工智能新药研发企业,药明康德也战略投资了美国的一家人工智能新药研发公司。 对于化学分子的设计而言,以前的设计是通过人员对分子各种侧链和基团化学性质的经验,人工设计药物。这个过程就跟程序员写程序一样,有的人有天分,写一个程序就能成功运行,有的人没天分,设计了许多也没有好用的。因此,在当时就有很多人说,药物的化学设计是一种艺术,甚至是一种玄学。 现在,则可以用机器来学习药物和药物靶点的结合特点,从而让机器来进行药物设计,这也能大大提高成功设计的概率。人工智能通过计算机模拟,可以对药物活性、安全性和副作用进行预测。 人工智能可以应用在药物开发的不同环节,包括虚拟筛选苗头化合物、新药合成路线设计、药物有效性及安全性预测、药物分子设计等。为什么人工智能提高新药研发的效率呢?因为人工智能有很强大的发现关系的能力,还有很强大的计算能力。在发现关系方面,人工智能可以发现药物与疾病的连接关系,也能发现疾病与基因的连接关系。在计算能力方面,人工智能可以对候选的化合物进行筛选,更快筛选出具有较高活性的化合物,为后期临床实验做准备。人工智能在化合物合成与筛选方面可以比传统手段阶段40%的时间,每年为药企节约上百亿的筛选化合物的成本。 人工智能技术的出现,为中国在新药研发的国际竞争中实现弯道超车提供了一定的可能性。
  • 《Nature Reviews Drug Discovery | 人工智能促进天然产品药物研发》

    • 来源专题:战略生物资源
    • 编译者:李康音
    • 发布时间:2023-09-19
    • 2023年9月11日,美国芝加哥大学,荷兰莱顿大学,美国佐治亚理工学院,荷兰瓦赫宁恩大学,南非约翰内斯堡大学,法兰克福歌德大学,丹麦技术大学,瑞士巴塞尔大学,荷兰莱顿药物研究学术中心,瑞士联邦理工学院,德国耶拿大学,新西兰奥克兰大学,加拿大西蒙菲莎大学,美国密歇根大学,法国萨克雷大学等单位的研究人员在《Nature Reviews Drug Discovery》杂志发表了一篇题为“Artificial intelligence for natural product drug discovery”的论文。 计算全息技术的发展为获取隐藏的天然产品多样性提供了新的手段,为药物发现发掘了新的潜力。与此同时,机器学习等人工智能方法也为计算药物设计领域带来了令人兴奋的发展,促进了生物活性预测和针对感兴趣的分子靶点的全新药物设计。该研究介绍了这些发展之间当前和未来的协同作用,以便从自然界产生的大量分子中有效识别候选药物。该研究还讨论了如何应对实现这些协同作用潜力的关键挑战,如训练深度学习算法所需的高质量数据集和算法验证的适当策略。 本文内容转载自“ AI Energy”微信公众号。 原文链接: https://mp.weixin.qq.com/s/x-4GukKLaAx7L58hjUVsSA