《探索 | AI加速基因研究,MIT团队用几分钟即可预测数千种3D基因结构》

  • 来源专题:光电情报网信息监测服务平台
  • 编译者: 胡思思
  • 发布时间:2025-02-05
  • 每个细胞都含有相同的基因序列,但只表达其中的一部分。这种细胞特异性的基因表达模式确保了不同类型的细胞(如脑细胞和皮肤细胞)之间的差异,这些差异部分由遗传物质的三维结构决定,该结构控制着每个基因的可访问性。

    近期,麻省理工学院的化学家们提出了一种新方法:利用生成式 AI 来确定这些三维基因组结构。他们的技术可以在短短几分钟内预测数千种结构,比现有的实验分析方法快得多。

    通过这种方法,研究人员能够更轻松地研究基因组的三维结构如何影响单个细胞的基因表达模式和功能。

    “我们的目标是尝试从基础的 DNA 序列预测三维基因组结构。”该研究的资深作者、麻省理工学院化学系副教授 Bin Zhang 说,“现在我们已经可以做到这一点,这种方法与最先进的实验分析技术不相上下,并为未来深入研究开辟更多可能性。”

    在细胞核内,DNA 和蛋白质形成了一种称为染色质的复合物,它包含多个层次的组织,使细胞能够将 2 米长的 DNA 塞进直径只有百分之一毫米的细胞核中。长链 DNA 缠绕在称为组蛋白的蛋白质上,形成了类似珠子串在绳上的结构。

    特定位置上可以附加被称为表观遗传修饰的化学标签,这些标签因细胞类型不同而变化,并影响染色质的折叠方式及其附近基因的可访问性。染色质构象的这些差异有助于决定哪些基因在不同的细胞类型或同一细胞内的不同时间点被表达。

    在过去的 20 年里,科学家们开发出很多确定染色质结构的实验方法,其中一种被广泛使用的技术名为“Hi-C”,通过将细胞核中的相邻 DNA 链连接在一起发挥作用。然后,研究人员可以通过将 DNA 切成许多小片段并对其进行测序来确定哪些片段彼此靠近。

    这种方法可用于大量细胞来计算染色质切片的平均结构,也可用于单个细胞来确定特定细胞内的结构。然而,Hi-C 以及类似技术比较耗时费力,处理一个细胞的数据大约需要一周时间。

    为了克服这些局限性,Bin Zhang 团队利用生成式 AI 开发了一个模型,创建了一种快速、准确的方法来预测单细胞中的染色质结构。他们设计的 AI 模型可以快速分析 DNA 序列,并预测这些序列可能在细胞中产生的染色质结构。

    “深度学习在模式识别方面非常擅长。”Bin Zhang 说,“它能够分析非常长的 DNA 片段,包含数千个碱基对,并找出这些 DNA 碱基对中编码的重要信息。”

    研究人员创建的模型名为“ChromoGen”,包含两个部分:第一部分是一个深度学习模型,经过训练后能够“读取”基因组,分析基础 DNA 序列和染色质数据;第二部分是一个生成式 AI 模型,基于超过 1100 万个染色质构象的数据进行训练,能够预测物理上准确的染色质构象。

    在将两部分进行整合后,第一部分“告知”生成模型细胞类型特异环境如何影响不同染色质结构的形成,从而有效捕捉序列与结构之间的关系。对于每个序列,研究人员使用模型生成许多可能的结构。这是因为 DNA 是一种非常无序的分子,因此单一的 DNA 序列可以产生许多不同的可能构象。

    “预测基因组结构的一个主要复杂因素是不存在单一的目标解。无论你观察基因组的哪一部分,都存在一系列结构分布,而预测这种非常复杂的高维统计分布极其困难。” Schuette说道。

    一旦训练完成,该模型可以在极短时间内生成预测,比 Hi-C 或其他实验技术快得多。

    “你可能需要花费六个月的时间进行实验才能得到某一特定细胞类型的几十种结构,而使用我们的模型,在单颗 GPU 上只需 20 分钟就能生成特定区域的一千种结构。”Schuette 表示。

    在训练了他们的模型后,研究人员用它对 2000 多个 DNA 序列进行了结构预测,然后将它们与实验确定的这些序列的结构进行了比较。他们发现,模型生成的结构与实验数据中看到的结构相同或非常相似。

    “我们通常会查看每个序列的数百或数千种构象,这可以合理地表示特定区域可能具有的结构多样性。”Bin Zhang 表示,“如果你在不同的细胞中多次重复实验,你很可能会得到一个非常不同的构象,而这也是我们模型预测到的。”

    此外,研究人员还发现,该模型能够对未用于训练的其他细胞类型的数据做出准确预测,这表明该模型可用于分析细胞类型之间的染色质结构差异,以及这些差异如何影响其功能。该模型还可用于探索单个细胞内可能存在的不同染色质状态,以及这些变化如何影响基因表达。

    另一个潜在的应用是探索特定 DNA 序列中的突变如何改变染色质构象,这有助于揭示此类突变如何导致疾病的发生。“我认为可以用这种模型来解决很多其他未知问题。”Bin Zhang 表示。

    这项研究由美国国立卫生研究院资助。目前,研究人员已经将所有数据和模型公开,供其他研究者获取。

  • 原文来源:https://news.mit.edu/2025/with-generative-ai-mit-chemists-quickly-calculate-3d-genomic-structures-0131
相关报告
  • 《美科学家开发出可在几分钟内检测基因突变的CRISPR芯片》

    • 来源专题:生物安全知识资源中心 | 领域情报网
    • 编译者:huangcui
    • 发布时间:2019-04-19
    • 在一项新的研究中,来自美国加州大学伯克利分校和克莱蒙特学院联盟凯克研究所的研究人员将CRISPR与用石墨烯制成的电子晶体管结合在一起,构建出一种可在几分钟内检测出特定基因突变的新型手持设备。这种称为CRISPR-Chip(CRISPR芯片)的设备可用于快速诊断遗传疾病或评估基因编辑技术的准确性。他们使用这种设备来鉴定来自杜兴氏肌营养不良(DMD)患者的DNA样品中的基因突变。相关研究结果于2019年3月25日在线发表在Nature Biomedical Engineering期刊上,论文标题为“Detection of unamplified target genes via CRISPR–Cas9 immobilized on a graphene field-effect transistor”。 论文通讯作者、克莱蒙特学院联盟凯克研究所助理教授Kiana Aran说道,“我们开发出首个利用CRISPR在基因组中搜索潜在突变的晶体管。仅需将纯化的DNA样品放在这种芯片上,让CRISPR进行这种搜索,这种石墨烯晶体管可在几分钟内报告搜索结果。” 医生和遗传学家如今可对DNA进行测序,以确定导致一系列性状和疾病的基因突变,而且像23andMe和AncestryDNA这样的公司甚至可以向好奇的消费者提供这类测试。 但是与大多数形式的基因检测---包括近期开发的基于CRISPR的诊断技术---不同的是, CRISPR-Chip使用纳米电子技术来检测DNA样本中的基因突变,而无需首先通过一种称为聚合酶链式反应(PCR)的时间和设备密集型过程来对感兴趣的DNA片段进行数百万次“扩增”或着说复制。这意味着它可能用于在医生办公室或野外工作环境中进行基因检测,而无需将样品送到实验室。 绕过瓶颈 CRISPR-Cas9系统以它在精确位置剪断DNA链的能力而闻名,就像一把锋利的剪刀那样,这为人们提供了前所未有的基因编辑功能。但是为了让Cas9蛋白准确地切割和粘贴基因,人们首先必须在需要切割的DNA中找到确切的位点。 为了让Cas9找到基因组上的特定位置,科学家们必须首先为它配备一段“向导RNA(gRNA)”,其中gRNA是一小段RNA,它的碱基与感兴趣的DNA序列互补。蛋白Cas9首先解开双链DNA并进行扫描直至找到与gRNA相匹配的序列,然后结合上去。 为了利用CRISPR的基因靶向能力,这些研究人员采用了一种失活的Cas9蛋白:能够在DNA上找到特定的位点,但不加以切割。他们将它连接到由石墨烯制成的晶体管上。当CRISPR复合物在它靶向的DNA上找到靶位点时,它结合上去并触发石墨烯的电导率发生变化,这接着改变了这种晶体管的电学特性。这些变化可通过他们的产业合作者开发的一种手持设备进行检测。 石墨烯由单个原子碳层构成,具有如此好的电敏感性以至于它能够检测全基因组样品中匹配的DNA序列,而无需进行PCR扩增。 Aran说,“石墨烯的超灵敏度使得我们能够检测到CRISPR的DNA搜索活性。CRISPR带来了选择性,石墨烯晶体管带来了灵敏度,而且我们能够将它们结合在一起进行这种无需PCR扩增的检测。” Aran希望能够很快让这种设备具有多重性,从而允许医生们立即导入多个gRNA,以便在几分钟内同时检测出许多基因突变。 快速诊断 为了证实CRISPR-Chip的灵敏度,这些研究人员使用这种设备检测来自杜兴氏肌营养不良患者的血液样本中的两种常见基因突变。 论文共同作者、美国加州大学伯克利分校生物工程教授Irina Conboy说道,CRISPR-Chip可能是一种特别有用的DMD筛查设备,这是因为这种严重的肌肉萎缩疾病可能是由于抗肌萎缩蛋白(dystrophin)编码基因发生的大量突变引起的。 Conboy说道,“如今作为一种常见做法,患有DMD的男孩通常不会接受筛选,直到我们出现问题,随后他们进行基因确认。” Conboy 说道,“通过使用这种数字设备,你可以在整个抗肌萎缩蛋白编码基因中设计gRNA,然后你能够在几小时内仅筛选这个基因的整个序列。你可筛查父母甚至新生儿是否存在抗肌萎缩蛋白突变,然后,如果发现突变,那么治疗可能在疾病实际产生之前尽早开始。” Murthy说道,快速基因检测也可能用来帮助医生为患者制定个性化的治疗计划。比如,遗传变异使得一些人对昂贵的血液稀释剂(如Plavix)不会作出反应。 Murthy说道,“如果你携带某些突变或某些DNA序列,那么这将非常准确地预测你对某些药物的反应。” 最后,鉴于CRISPR-Chip可以用于监测CRISPR是否与特定DNA序列结合,因此它也可能用于测试基于CRISPR的基因编辑技术的有效性。Aran说道,比如它可能用于验证gRNA序列的设计是否正确。 Aran说道,“将现代纳米电子学与现代生物学相结合,为获取以前无法获得的新生物信息开辟了新的大门。”
  • 《探索 | 成像法测量3D打印金属的质量》

    • 来源专题:光电情报网信息监测服务平台
    • 编译者:husisi
    • 发布时间:2022-03-14
    • 南洋理工大学的研究人员开发了一种快速、低成本的成像方法,可以分析3D打印金属零件的结构,以评估材料的质量。该系统使用一台光学相机、一个光源和一台自主开发的专有机器学习软件的笔记本电脑。相关研究发表在《npj Computational Materials》上。 大多数3D打印金属合金由各种微观晶体组成,它们在形状、大小和原子晶格取向上都不同。将这些信息映射出来,就可以推断出合金的性能,比如强度和韧性。为了分析这种微观结构,通常使用扫描电子显微镜,这是一个昂贵且耗时的过程。这些显微镜本身的价格在7.5万美元到150万美元之间。 图注:NTU 助理教授 Matteo Seita 使用原型成像系统分析一块 3D 打印合金的强度和硬度 另一方面,该团队所提出的方法涉及的硬件成本不到 20,000 美元。 该方法首先用化学物质处理金属表面,以揭示微观结构,然后将样品面向相机放置,当光源从不同方向照亮金属时,相机会拍摄多张图像。 然后,该软件分析由不同金属晶体表面反射的光产生的图案,然后推断它们的方向。整个过程大约需要15分钟。 南洋理工大学机械与航空航天工程学院和材料科学与工程学院助理教授 Matteo Seita 说,“使用我们廉价且快速的成像方法,我们可以轻松区分优质的 3D 打印金属部件和有缺陷的金属部件。目前,除非我们详细评估材料的微观结构,否则不可能分辨出它们的区别。”。 图注:分析3D打印金属表面的独特晶体图案,将可能为通过增材制造制造的零件认证和质量评估铺平道路 “没有两个 3D 打印的金属部件是相同的,即使它们使用相同的技术生产并具有相同的几何形状。从概念上讲,这类似于两个原本相同的木制手工艺品可能各自具有不同的纹理结构。” Seita 认为,该团队的成像方法有可能简化 3D 打印或增材制造生产的金属合金零件的认证和质量评估。 使用高功率激光熔化金属粉末并将它们逐层融合在一起是3D 打印金属部件最常用的技术之一。然而,微观结构以及印刷金属的质量取决于几个因素,这其中包括激光的速度和强度,在添加下一层之前分配的冷却时间,以及所用金属粉末的类型和品牌。 该团队没有使用从获得的光学信号中测量晶体取向的复杂程序,而是使用一个神经网络,为其提供数百张光学图像以供学习。最终,它学会了根据光从金属表面散射的方式的差异,从图像中预测金属中晶体的方向。 然后,他们测试了该方法,以创建完整的“晶体取向图”,该图提供了有关晶体形状、尺寸和原子晶格取向的全面信息。 该团队目前正在与 NTU 的创新和企业公司 NTUitive 进行讨论,以探索成立衍生公司或许可其专利的可能性。