2024年6月12日,哈佛医学院Faisal Mahmood通讯在Nature发表题为A Multimodal Generative AI Copilot for Human Pathology的文章,开发了PathChat,这是一款开创性的用于人类病理学的多模态生成AI Copilot。PathChat将最先进的病理学视觉编码器与大型语言模型(LLM)相结合,该编码器在超过1亿个组织学图像块上进行了预训练。这种融合使PathChat能够理解和响应涉及视觉和自然语言输入的复杂病理学相关查询。
研究人员广泛评估了PathChat在多个方面的能力。首先,他们评估了它在不同器官部位和疾病模型的多项选择诊断问题上的表现。PathChat实现了卓越的准确性,优于最先进的开源和商业解决方案,包括ChatGPT-4(由GPT4V支持)。值得注意的是,当提供额外的临床背景时,PathChat的准确性进一步提高,突出了其有效利用多模式信息的能力。
此外,研究人员策划了一个高质量的、专家策划的开放式病理学问答基准,以评估PathChat在对各种查询生成连贯、临床相关响应方面的表现。与包括GPT4V在内的其他模型相比,PathChat的反应在相关性、正确性和简洁推理方面是最优级别。病理学家的客观评估显示,PathChat在达成共识的开放式问题上获得了令人印象深刻的78.7%的准确率,比亚军GPT4V提高了26.4%。值得注意的是,PathChat在需要组织学图像检查的类别中表现出色,显著优于GPT4V。
研究人员进一步展示了PathChat在病理学教育、研究和人在环临床决策中的潜在应用。PathChat可以分析和描述组织学图像中的形态学细节,回答需要病理学和生物医学背景知识的问题,并在诊断指南的背景下解释研究结果。此外,其交互式多回合对话功能使PathChat能够作为鉴别诊断的顾问,在那里,可以通过额外的临床背景和测试结果来完善初始人工智能辅助评估。
研究人员承认需要进一步改进,例如减少幻觉,并与不断发展的医学术语和指南保持一致,同时强调PathChat作为病理学的交互式多模式人工智能副驾驶的巨大潜力。通过使获得专家级指导的途径大众化,并缩小医疗保健提供方面的地区差异,PathChat为病理学教育、研究和临床决策的变革性应用铺平了道路。