医生每天会见数十名患者,并根据在这些会议中收集的笔记、患者描述、测试结果和诊断信息,提出关键的健康相关建议。所有这些文本信息通常都集中在患者的电子健康记录(EHR)中。电子健康记录中大量的信息已经成为现代医学的一个转折点。大多数医生现在依靠长篇笔记和医疗记录的简短摘要来管理病人的护理。
“医疗文件的临床负担很高,而且耗时。这对病人有影响,”Dave Van Veen说,他是电气工程博士候选人,也是《自然医学》杂志上一项新研究的第一作者,他正在探索人工智能辅助总结的可能性。“医生照顾病人的时间更少,而且在总结电子病历信息时,总是有出错的可能。”
在这项研究中,Van Veen和斯坦福大学的同事们将8种大型语言模型(LLM)应用于临床文本,并测试了它们与人类医学专家的总结能力。研究人员表示,医生往往更喜欢人工智能生成的摘要,而不是人类生成的摘要。
“人工智能通常会生成与医学专家撰写的摘要相当或更好的摘要。这项研究的资深作者、放射学教授、生物医学数据科学教授Akshay Chaudhari说:“这表明LLM有潜力融入临床工作流程,减少文档负担。”“这种技术的发展和验证可能会让临床医生花更多的时间在病人身上,而不是在电子病历上。”
同类相较
即使对经验丰富的医疗专业人员来说,总结医疗记录也是一项困难、重要和注重细节的工作。
“我们认为人工智能在辅助方面有很大的潜力,可以加快医生的工作量,减少错误。更多的时间和更高的准确性可以带来更好的病人护理,”Van Veen说。
在他们的研究中,Chaudhari、Van Veen和同事们与8位已建立的法学硕士合作,并使他们能够总结一系列文本医学信息——放射学报告、患者问题、进展记录和医患对话。然后,在盲测中,一个由10名医生组成的小组将表现最好的法学硕士生成的摘要与人类医学专家生成的摘要进行比较,并根据“完整性、正确性和简洁性”对摘要进行评级。
Van Veen说:“在大多数情况下,适应性最好的法学硕士的总结被评为比人类创造的总结好或更好。”几乎有一半的时间(45%),评估者认为人工智能生成的摘要至少和人工生成的摘要一样好。超过三分之一的时间(36%),他们认为他们“优越”。
不容犯错
知道人工智能的“幻觉”倾向——本质上,就是编造不真实的信息——研究人员热衷于探索人工智能是否会在他们的总结中引入虚构的信息。如果是这样,考虑到医疗环境的严重后果,这将是对人工智能的巨大打击。
“事实证明,人类有时也会犯错,最好的模型虽然不完美,但比人类医学专家产生的虚假信息更少,”Van Veen说。“法学硕士课程非但不会带来不准确的信息,反而可能最终减少临床实践中的虚假信息。”
Van Veen和他的同事们现在将对他们的模型进行微调,并最终将人工智能辅助应用到现实世界的临床环境中。
“拭目以待吧。我们即将在现实环境中测试LLM,帮助医生在文件上花费更少的时间,这样他们就可以为病人提供更好的护理。