《生成式 AI 如何构建更好的抗体》

  • 来源专题:数智化图书情报
  • 编译者: 闫亚飞
  • 发布时间:2023-07-11
  • 抗体是免疫系统对抗感染的主要武器之一。这些蛋白质已成为生物技术行业的宠儿,部分原因是它们可以被设计成附着在几乎任何可以想象的蛋白质上,从而操纵其活动。但斯坦福大学的计算生物学家 Brian Hie 表示,生成具有有效特性的抗体并对其进行改进优化,涉及“大量的强力筛选”。

    为了了解生成式 AI 工具是否可以减少一些繁重的工作,Hie、Kim 团队使用了称为蛋白质语言模型的神经网络。这些类似于构成 ChatGPT 等工具基础的「大型语言模型」。但是,蛋白质语言模型不是被输入大量文本,而是在数千万个蛋白质序列上进行训练。

    研究人员已经使用此类模型来设计全新的蛋白质,并帮助以高精度预测蛋白质的结构。Hie 的团队使用了一种蛋白质语言模型——由 Meta AI 的研究人员开发——来建议抗体的少量突变。

    在它学习的近 1 亿个蛋白质序列中,该模型只接受了几千个抗体序列的训练。尽管如此,该模型的建议中有惊人的高比例提高了针对 SARS-CoV-2、埃博拉病毒和流感的抗体与其目标结合的能力。

    改变批准用于治疗埃博拉病毒的疗法和 COVID-19 疗法可以提高这些分子识别和阻断这些病毒用来感染细胞的蛋白质的能力。(Hie 表示,COVID-19 抗体对 Omicron 及其亚变体无效,人工智能引导的变化不太可能恢复有效性。)

    Kim 说,许多建议的抗体变化发生在与其靶标相互作用的蛋白质区域之外,这通常是工程工作的重点。他补充说:「该模型所涉及的信息甚至对抗体工程专家来说都是完全不明显的……对我来说,这就是『天哪,这是怎么回事?』时刻。」


    「这是人们用来改善抗体的工具。」英国牛津大学免疫信息学研究员 Charlotte Deane 说,「我觉得这真的很酷。」 但她补充说,许多研究人员希望,生成式 AI 不是简单地改进现有抗体,而是能够创造出全新的抗体,这些抗体将与选定的目标结合。

    Nabla Bio 的联合创始人 Surge Biswas 说,这种能力可以帮助研究人员开发针对抵抗其他抗体设计方法的分子靶标的药物,该公司正在应对这一挑战。

    例如,人工智能可以帮助解决 G 蛋白偶联受体问题,G 蛋白偶联受体是夹在细胞膜中的一类蛋白质,与神经系统疾病、心脏病和无数其他疾病有关。Biswas 说,生成式 AI 还可以帮助设计能够锁定多个目标的抗体药物,例如设计肿瘤蛋白和可以杀死肿瘤的免疫细胞。

    斯坦福大学生物工程师 Possu Huang 表示,蛋白质语言模型功能强大,非常擅长优化现有蛋白质,包括抗体。但仅在蛋白质序列上训练的模型可能难以产生识别特定蛋白质的真正新抗体。

    研究人员表示他们正在取得进展。2023 年 3 月,位于华盛顿州温哥华的生物技术公司 Absci 的科学家们在 bioRxiv 发布的预印本中报告了他们所说的用 AI 制造新抗体的第一步。他们使用包含蛋白质序列和实验数据的模型,为用于治疗乳腺癌的抗体药物的几个重要区域生成了新设计。


  • 原文来源:https://www.nature.com/articles/s41587-023-01763-2
相关报告
  • 《前沿 | AI助力破解病毒密码,MIT团队开发新模型能更好地“猜”出抗体长啥样》

    • 来源专题:光电情报网信息监测服务平台
    • 编译者:胡思思
    • 发布时间:2025-01-08
    • 借助 AI 模型,研究人员在根据蛋白质序列预测蛋白质结构方面已经取得了巨大进步,然而,这种方法对于抗体却不是那么有效,部分原因是由于这种类型的蛋白质具有“高变异性”。 为了解决这个挑战,麻省理工学院的研究人员开发出一种新方法让模型能够更准确地预测抗体结构。通过这种方法,研究人员能够筛选出数百万种可能的抗体,从而确定可用于治疗 SARS-CoV-2 和其他传染病的抗体。 这项研究工作的领导者、麻省理工学院计算机科学与人工智能实验室(CSAIL)计算与生物学小组负责人、西蒙斯数学教授 Bonnie Berger 表示:“这种新方法可以在大量信息中更有效地找到重要的线索,并且可以帮助制药公司节省不必要的开支,避免用错误的药物进行昂贵的临床测试。” 这项新技术侧重对抗体高变异区进行建模,同时也具有分析个体抗体库的潜力,这将有助于研究对艾滋病毒等疾病具有超级反应能力的人的免疫反应,从而帮助弄清楚为什么他们的抗体能够有效地抵御病毒。 目前,这篇论文已经发表在 PNAS 上。Bryan Bryson 是这篇论文的共同通讯作者,他是麻省理工学院生物工程副教授,也是麻省总医院、麻省理工学院和哈佛大学拉贡研究所的成员;Rohit Singh(前 CSAIL 研究科学家,现任杜克大学生物统计学、生物信息学和细胞生物学助理教授)和 Chiho Im 是该论文的共同一作。此外,赛诺菲和苏黎世联邦理工学院的研究人员也为这项研究做出了贡献。 1. 高变异性建模 蛋白质由长链氨基酸组成,可以折叠成大量结构。近年来,研究人员使用 AlphaFold 等来预测这些结构变得更加容易。比如 ESMFold 和 OmegaFold 等都是基于大语言模型,这些模型最初是为了分析大量文本而开发的,其能够学习和预测语句中的下一个单词,同样的方法也适用于蛋白质序列,通过学习哪些蛋白质结构最有可能由不同模式的氨基酸组成。 然而,这种方法并不总是适用于抗体,尤其是针对抗体的高变异区。抗体通常具有 Y 形结构,这些高变异区位于 Y 形结构的尖端,负责检测并结合外源蛋白质(即抗原),而 Y 形结构的底部提供结构支撑并帮助抗体与免疫细胞相互作用。 高变异区的长度不尽相同,但通常不会超过 40 个氨基酸。据估计,通过改变这些氨基酸的序列,人体免疫系统可以产生多达 101? 种不同的抗体,从而确保身体能够对各种各样的潜在抗原做出反应。这些序列不像其他蛋白质序列那样受到进化限制,因此大语言模型很难“学会”准确预测其结构。 “大语言模型能够很好地预测蛋白质结构的部分原因是进化限制了这些序列,而模型可以解读这些限制的含义。这类似于通过查看句子中单词的上下文来学习语法规则,从而弄清楚它的含义。”Rohit Singh 表示。 为了对这些高变异区进行建模,研究人员创建了两个基于现有蛋白质大语言模型的模块:一个模块针对来自蛋白质数据库(PDB)中约 3,000 个抗体结构的高变异序列进行训练,使其能够了解哪些序列倾向于生成相似的结构;另一个模块基于约 3,700 个抗体序列与它们结合三种不同抗原的强度相关的数据进行训练。 这种计算模型称为“AbMap”,其可以根据氨基酸序列预测抗体结构和结合强度。为了证明该模型的实用性,研究人员用它来预测能够强烈中和 SARS-CoV-2 病毒刺突蛋白的抗体结构。 研究人员从一组被预测会与该靶点结合的抗体开始,然后通过改变高变异区产生数百万种变体,这种模型能够识别出最成功的抗体结构,比基于大语言模型的传统蛋白质结构模型更准确。 随后,研究人员采取了一些“额外步骤”,将抗体划分为具有相似结构的组。他们与赛诺菲的研究人员合作,从每个组中选择抗体进行实验测试。实验发现,82% 的抗体比模型中的原始抗体具有更好的结合强度。 研究人员指出,“在开发初期就能找到多种优质的候选抗体,可以帮助制药公司避免浪费大量资金去测试最终会失败的候选抗体。” “他们不想孤注一掷。他们不希望把所有的希望都放在一个抗体上,然后在临床前试验中发现它有毒性问题。相反,他们更愿意拥有一系列不错的选择,同时推进这些选项,这样如果其中一个出了问题还有其他备选方案。”Rohit Singh 说。 2. 比较抗体 基于这项技术,研究人员还尝试解决一些长期存在的难题,即为什么不同的人对感染的反应不同。例如,为什么有些人感染新冠病毒后病情更严重?为什么有些接触过艾滋病毒的人却不会被感染? 科学家们一直试图通过对个体免疫细胞进行单细胞 RNA 测序并进行比较来回答这些问题,这一过程被称为“抗体库分析”。先前的研究表明,来自不同两个人的抗体库重叠度可能只有 10%,然而,测序无法提供与结构信息一样全面的抗体“全景图谱”,因为具有不同序列的两种抗体也可能具有相似的结构和功能。 这种新模型可以通过快速生成个体中发现的所有抗体的结构来帮助解决这个问题。在这项研究中,研究人员发现,当考虑到抗体结构时,个体之间的重叠比序列比较中看到的 10% 要多得多。他们现在计划进一步研究这些结构如何促进人体针对特定病原体的整体免疫反应。 “大语言模型在这里发挥得非常好,因为它既能像基于序列的分析那样灵活扩展,又能达到基于结构的分析的准确性。”Rohit Singh 表示。 这项研究得到了赛诺菲和 Abdul Latif Jameel 健康机器学习诊所资助。
  • 《院士专家解读大数据AI如何抗“疫”》

    • 来源专题:光电情报网信息监测服务平台
    • 编译者:husisi
    • 发布时间:2020-08-03
    • 7月30日,北京市政府新闻办举行发布会,发布第二批30项应用场景建设项目。其中,面向城市管理,提升城市精细化管理水平,推动技术服务疫情防控是重要方面。 实际上,自6月11日新发地发生聚集性疫情,到7月20日,仅仅34天,北京新冠肺炎疫情防控从二级调至三级。首都安澜,大数据人工智能(AI)技术功不可没。 专家认为,超大型国际化大都市利用大数据快速锁定病例行动轨迹,圈定密切接触者等高风险人群,对于预警管控、迅速切断传播渠道至关重要。 那么,大数据人工智能是如何“参战”并在战“疫”中守护隐私的,对于不断突发的“疫情”,如何能做得更好? 精准画像 “一个都不能少” 自新冠肺炎疫情发生以来,北京AI疫情追踪项目迅速启动,中国人民大学高瓴人工智能学院院长文继荣团队参与建立了新冠肺炎防控智能追踪服务系统。 “我们必须通过大数据把确诊人员的行动轨迹全部刻画出来,每一处遗漏都是隐患,这个过程非常复杂。”文继荣在日前召开的2020北京智源大会上表示。 文继荣介绍,疫情追踪分为4部分。首先需要多家互联网企业合作,进行重点疫区14日内互动态势分析。其次根据确诊人员信息,结合互联网企业上报的“信息点”等,将多个互联网渠道提供的确诊人员活动轨迹进行整合和串并分析,然后绘制确诊人员的活动圈。 接下来,要根据确诊人员的活动轨迹图,结合互联网公司等收集的确诊人员近距离接触信息,筛查出密切接触风险人员及其活动轨迹。最后综合分析这些传染风险人员的活动行为,评估传染风险人员的风险度,为疫情分析、防控和预警提供支持。 疫情防控取得一定胜利后,复工复产成为迫切问题,然而,楼宇内的一些隔离措施成为重要阻碍。“楼宇内GPS信号弱,人员的行动轨迹无法确定,一人确诊、整体封楼这种粗放式的隔离方式不太合理,严重影响整个社会的复工复产节奏。”文继荣说。 为了更科学、更智能、更精准的疫情防控和人员隔离,“疫情实时风险预警系统”上线。它基于蓝牙、局域网信号、气压计等信号,引进智能算法进行时空轨迹数据分析,研究人群时空轨迹,追溯近距离接触人员,做到智能防控、精准隔离,有效降低隔离成本,护航复工复产。 对于能否将所有数据拿来统一分析,文继荣认为:“这个方法不太现实。集中进行数据分析需要非常大的算力,这需要几千甚至几万台服务器。此外,集中管理数据容易引发商业隐私等方面的问题。” 公共利益和隐私保护“两全” 隐私问题一直是AI发展的短板。中国工程院院士高文认为,根据我国技术和社会发展现状,想让技术和社会和谐快速发展,隐私得到很好保护,诚信非常重要。 当新冠肺炎疫情威胁人类生存、危害人们公共利益时,隐私保护应该做出让步吗? “完全的隐私保护是不可能的。”文继荣说,“当今世界正在从物理世界走向数字世界,随着跟踪设备和数据收集的增加,以及数据处理能力的强化,隐私保护的问题不可避免,变得越来越重要。” 在文继荣看来,东西方看待隐私保护的观点是不同的。北京大学副教授边凯归也表示认同:“我国民众在政府利用个人数据方面的配合度很高,而一些西方国家的配合度相对较低,这也导致国外疫情防控出现了诸多问题。当然,我们也在不断迭代技术方案,尽量保护数据隐私。” “我们在鼓励使用数据进行创新和促进社会发展的同时,也应该公开讨论隐私保护的风险和问题,探讨从技术、政策等方面如何做得更好。”文继荣说,“为保证数据安全可靠,可以建立数据分级分类管理机制、数据加密机制、关键数据传输协议及安全通道。” 中国科学院院士张钹也认为中西方存在隐私保护的差异。“我国隐私保护的核心问题是不滥用个人信息。避免滥用包括两个方面,一方面是制定法律、规则,限制滥用行为;另一方面是发展安全、可靠、可信赖、可扩展的AI技术。”张钹说。 平战结合 “数战数决” 实际上,如何应对突发性高传染病毒疫情等重大突发公共卫生事件,一直是国际社会面临的共同难题。下一次疫情到来时,我们可以更好地利用大数据吗? 精鼎医药亚太区真实数据负责人冯胜参与了新冠临床试验数据分析工作,他回忆道:“很多数据处于零散阶段,是疫情期间大数据利用的一个重要问题。” 文继荣也认为这种“数据孤岛”应该被打破,“与公共卫生事件相关的很多数据散落在各个政府部门、互联网、电信运营商、物流等企业,以及民航、高铁、公交车、网约车等公共出行系统中,未能得到有效汇总和利用”。 此外,文继荣还提出:“数据的动态性、安全性和决策的及时性,都是疫情期间制约大数据发挥作用的因素。” 为打造重大突发公共卫生事件大数据服务平台,文继荣认为,首先要实现公共信息互通共享,打破各部门“信息孤岛”,实现计算、数据等资源完全共享,形成统一的数据标准、数据对策模块化。其次要适应数据海量增长,有效满足需求,提供充足资源。此外要实施精确的数据分析和智能决策,探索国家突发公共卫生事件的预警模型,建立突发公共卫生事件的数字信息预警体系。 当前疫情还未获全胜,如何运用大数据服务突发公共卫生事件,是摆在国家乃至世界面前需要长远考虑的“必答卷”。 “要通过‘平战结合’的思路,建立多种数据采集渠道,围绕关键数据的采、治、用、管、研,建立应对公共卫生事件和应急事件的完善系统和规范工作流程。”文继荣表示。