阿联酋穆罕默德·本·扎耶德人工智能大学研究团队在《自然·通讯》发表新型扩散模型MorphDiff,能够仅凭L1000基因表达数据即可生成药物或基因编辑后的细胞形态图像。该模型在机制作用检索任务中表现优异,较基准方法提升16.9%,为药物发现提供高效的"虚拟显微镜"筛选方案。
传统上,预测细胞形态变化需要大量的试验和高昂的成本,而MorphDiff通过转录组数据直接生成细胞“术后”图像,从而预览细胞形态。 MorphDiff是一种扩散模型,它利用基因表达模式(L1000数据)来指导形态生成。该模型学习已知的基因表达和细胞形态的对应关系,然后仅使用L1000基因表达数据作为条件生成逼真的扰动后图像。这些图像可以通过两种方式生成:从零开始或通过转换对照图像。
研究表明,MorphDiff在大规模药物和遗传数据集上的表现与真实图像相当,并且在机制作用(MOA)检索上有优势。 该研究基于一个生物学观察:基因表达最终决定了显微镜下细胞的形态。虽然这种映射不是一一对应的,但共享的信号足够用于学习。使用转录组数据还有一个实际优势:公开的L1000数据远多于配对的形态数据,使得覆盖广泛的扰动空间成为可能。当有新的化合物出现时,其基因特征可以被MorphDiff利用。 MorphDiff内部结合了两个部分:首先是形态变分自编码器(MVAE),用于捕捉形态变化的多样性和生成高质量的图像。这一创新方法有望显著减少实验成本并加速细胞形态研究的进展。