2024年5月22日,华盛顿大学等机构的研究人员在 Nature 期刊发表了题为A whole-slide foundation model for digital pathology from real-world data的文章。
数字病理学提出了独特的计算挑战,因为一个标准的十亿像素的幻灯片可能包含成千上万的图像块。先前的模型通常会对每张幻灯片的一小部分贴图进行子采样,从而错过了重要的幻灯片级别上下文。
该研究展示了provi - gigapath,这是一个全玻片病理基础模型,在来自普罗维顿斯(Providence)的171189张全玻片中的13亿个256 × 256病理图像块上进行了预训练。普罗维顿斯是一个由28个癌症中心组成的大型美国健康网络。这些载玻片来自3万多名患者,涵盖31种主要组织类型。为了预训练prof -GigaPath,研究人员提出了一种新的视觉转换器架构GigaPath,用于预训练十亿像素的病理切片。为了将GigaPath扩展到具有数万个图像块的幻灯片级学习,GigaPath将新开发的LongNet方法应用于数字病理学。为了评估provi - gigapath,研究人员构建了一个数字病理基准,包括9个癌症亚型任务和17个病理任务,使用普罗维顿和TCGA数据。通过大规模预训练和超大上下文建模,provi - gigapath在26个任务中的25个任务上达到了最先进的性能,在18个任务上比第二好的方法有了显著的改进。通过结合病理报告,研究人员进一步证明了prof - gigapath在病理学视觉语言预训练方面的潜力。
总之,prof - gigapath是一种开重基础模型,可在各种数字病理任务中实现最先进的性能,证明了真实世界数据和全切片建模的重要性。