《AI要替代医生?医疗AI的真意义与数据瓶颈》

  • 来源专题:人类遗传资源和特殊生物资源流失
  • 编译者: yanyf@mail.las.ac.cn
  • 发布时间:2018-12-01
  • 在上周结束的第六届华兴资本医疗与生命科技领袖峰会上,包括香港致富证券首席经济学家肇越、Novocure执行董事长 William F Doyle、Ansun Biopharma首席执行官唐南珊、药明明码首席数字官顾延、药明巨诺董事兼首席执行官李怡平,以及歌礼制药创始人、董事长兼首席执行官吴劲梓等在内的近百位重磅嘉宾上台发表演讲、讨论分享。 论坛嘉宾 Artur Kadurin Insilico Medicine 首席AI官 何 幸 弘晖资本合伙人 康世功 全域医疗联合创始人兼副总裁 赖力鹏 晶泰科技联合创始人兼大数据与人工智能研发中心负责人 张少典 森亿智能创始人兼首席执行官 主持人 肖 治 国投创新董事总经理 1医疗AI的进展与趋势 肖治:从六十年代开始,人工智能经历了三起三落 。目前,人工智能正经历新一轮的爆发,各行业都在积极探索和发展人工智能。请各位介绍一下各自领域里人工智能最新的进展、在技术端、产品端看到的趋势。 康世功:我想讲两个放射治疗人工智能的应用场景。 一是我们的AI技术使北上广深三甲医院的放疗资源能够下沉到基层。大多数基层患者的经济条件不足以支撑他去大城市寻找专家医治肿瘤,县级城市也没有那么多资金和时间培训基层医生,我们现在将一把磨得很锋利的“手术刀”交到了基层。 二是为了让这把锋利的“手术刀”准确地救治病人,我们十分重视AI的质量控制,通过大数据把所有导致质量控制不佳的条件,逐一地判断和积累起来,做成模型和算法,用来自动监控和指导基层放疗的运行,这是我们AI应用两个最典型的场景。 赖力鹏:就像高分辨率显微镜,AI也是一个工具,在药物研发领域能处理人类本身看不到的微观问题。比如小分子和蛋白怎么结合,其实一般人是很难去想象的,但AI可以根据大量的数据去学习和发现其中的规律 。 我觉得AI在药物研发的应用可以用一个词“继往开来”来粗略地看待。一个是“继往”,我们过去累积的大量数据中包含失败的数据,但所谓的失败其实是临床上的失败,不代表数据没有价值。通过统计或者说机器学习的方法,能从中提取以往没有注意到的信息。在“开来”的部分,基于深度学习的生成模型可以帮助我们探索更大的化学空间,做很多开创性的工作。 去年的Nature有一篇文章说可成药的化学空间可能是10的60次方那么大,但是我们现在的实体分子库可能在10的13次方,这里面大概有40多个数量级的差距。我们真正的在实验室研究过的药物分子,在整个的药物空间当中,其实就是一些很小的点,AI其实可以有定向性地帮我们在这个巨大的空间里面去寻找我们需要的药物分子。 第三个,我觉得AI它可以重塑工作流程,因为很多现有的计算方法,是不可能去覆盖到生物体这么一个复杂的体系的。比如临床一期的毒性问题,在动物和人体上可能会效果迥异。AI的方法强调端到端预测,现在非常有希望根据分子结构等直接预测候选药物在人体上的一些毒性表现,这样可以大大降低我们在临床上失败的可能性。 更重要的一个,我们的业务主要是在药物发现和晶型预测的方法开发上,其实在这两个方面,都涉及到刚才讲的可能10的N次方的分子或者结构的筛选和搜索。在我们自己的业务当中,其实我们是把物理模型和AI模型拼起来,在实际的业务中,我们通过有效地把物理模型和AI模型拼起来,不断提高我们的计算效率。 张少典: 我分享一下我们今年上半年和一家三甲医院合作落地的一个辅助诊疗的案例。 静脉血栓栓塞症(VTE)常见于住院较久,手术后长期住院或者产后长期卧床的病人。VTE有一定的概率会发展成为肺栓塞,而肺栓塞死亡率非常高。为了预防病人风险,医院会派护士每天进行人工监护,给这些病人做病情追踪、反馈,但依靠人工方法要消耗大量时间和精力,还可能出现误差,而AI技术能改善这种状况。 我们开发的医疗AI产品起到两个作用:一是评估,根据病人的病情、病史,包括住院、手术的情况,以及检验、检查的情况自动对病人进行风险打分。二是预警,根据病人的数据去预测是不是有可能是一个高危病人。如果是高危病人,会提前发送预警消息,推送到医生工作站。 大家可能会问,这些东西到底有没有起作用。实际上,就我们的产品已经在合作三甲医院上线两个多月的效果来看,我们大概能够帮助护士节约95%对病人进行人工评估的时间,同时还能够把对高危病人的识别率提升70%。这是我们在辅助诊疗领域尝试的案例之一,大家可以借此了解真正意义上能用于医生诊疗和医院管理的AI产品,现在大概能做到什么样的程度。 2数据门槛如何跨越 肖治:Artur和赖总,在药物开发这一部分的话,数据来源起到什么样的作用,你们怎么解决,或者你们有什么好的方法获得更好的数据,产生更好的结果。 Artur Kadurin:在实验室进行生物测定、临床试验等是获取数据的简单方法,但成本十分高,同时需要处理相关方与合作方的关系。我们通过早期的努力,取得一定的进展,在此基础上进一步获取更多的数据。 肖治:所以您才来到中国寻求更多的数据资源吗? Artur Kadurin:在中国确实可以获取大量数据,这在海外是办不到的。但我们到中国不仅仅是为了数据,我们希望在中国,甚至是整个亚洲都有更长足的进展。中国是一个非常巨大的市场,我们希望能够与当地的合作伙伴合作。 赖力鹏:我们早期进行药物研发工具开发的数据来自于两个方面。特点各不一样,一个是公开数据(public domain data),这部分的数据量其实还是相对来说比较大的, 最大的挑战是它的质量和格式参差不齐,清洗的过程就很费劲。另一方面的数据来自我们自己内部的高精度计算,它的好处就是准确率很高,本身规模也可以达到大概上亿和几十亿,但是它的成本也是不低的。 随着我们跟客户建立深度合作之后,我们一部分数据也会来自于合作伙伴。好处就是这些数据最靠近一线的研发和特定的问题,当然困难可能也会有,因为部分数据在收集的时候并不是为AI建模准备的,所以有时候可能很关键的信息并没有很好的记录下来。 肖治:康总,靶区勾画这一块的话,对图像要求质量怎么样,你们已经开始在应用端大面积铺开了,我想知道当时数据是怎么收集上来的。 康世功:我们现在计划设计系统mdaccAutoPlan已经在应用端完全铺开了。mdaccAutoPlan中的数据,是由美国MD Anderson Cancer Center这些年来积累下来的肿瘤数据,然后进行训练,它是我们的核心基础。 在中国,MD Anderson Cancer Center数据训练出来的模型,还有调整的空间。在这个前提下,我们在中国推广应用的过程中,有幸拿到了国家科技部的“十三五”重大专项,在“十三五”重大专项的引导下,海量数据现在已经归于科技部的中心数据库,但算法模型和所有的图谱是我们的。最近,我们和中国人民解放军总医院(301医院)成功申请工信部国家大数据实验室,这些是我们在推进AI过程中一些必备的基础。 3数据使用权VS数据所有权 肖治:张总,您这儿有国外的数据库给你做借鉴吗? 张少典:没有。不管是诊疗还是医院管理,都需要注重中国特点,需要基于国内的情况、国内的数据。对此我谈两点看法: 第一,关于数据所有权和使用权的问题,我们认为科技类企业不应该妄想自己拥有数据所有权。纠结于此不是太有意义的事情。科技类企业能做的事情就是立足于自己的核心技术和能力,要做的事情就是如何让你的技术能力形成产品,为医院提供更好的解决方案,然后在医院内通过产品来使用一定的数据。 另外一个最主要的挑战是数据治理的问题。为什么影像人工智能遍地开花,因为影像数据相对标准。而病历类、诊疗类的数据就需要大量的数据治理。比如说我刚刚给大家讲的我们在三甲医院做的VTE预警监控系统,仅这一套系统,我们在这家医院里面就对接了20多个系统,这背后的数据的结构化、标准化、数据治理,是一个浩大的工程。 肖治: 何总作为投资人怎么看数据对人工智能公司的意义,或者说你们看项目的时候,这一点是不是你们核心关注的一个话题。 何幸:我觉得毫无疑问,数据对于AI是最基础的东西,在今天,我们要说未来要实现医疗的AI,首先就是说中国有没有高质量的、AI所需要的,经过处理、结构化的,不仅能够提取字段、理解字段,进行更多的智能的拼图、识别这样一些底层的东西。 那事实上如果没有这些底层的东西,没有积累这些结构化的数据呢,很难得到一个有力的AI的诊断结果。所以从这个角度来讲呢,一方面我们非常关注企业的数据来源,是不是合法合规。当然我们也完全认同作为科技企业,你不太可能拥有整个数据的所有权。使用的时候,我们关注有没有足够脱敏的处理、医院的权利和病患的隐私是否得到很好的保护。 另外,可能在社会上或者其他行业里面会有一个误解,就是AI会替代人类。在中国的医疗体系里面,说AI会替代医生、护士,往往医疗接受度会很差。事实上我感觉各位做的事情,都是在帮医院节省不必要的资源和精力。比如说节省重复的劳动,缩短它的时间,提高它的产出,减少它的误诊率,避免一些医院资源的消耗。对于药物研发,事实上是提高筛选的准确性,减少材料的耗损。 所以从这个角度来讲,从投资机构的理解、社会的宣传,我认为我们更多应该把AI当作是整个医疗体系里面,降低成本、提高效益,提高精准度的方式和工具。那么它在短期内,甚至我觉得在相当长的一段时间之内,不太可能真正替代人做的一些工作,但是它能够成为非常好的帮手。

相关报告
  • 《数据和人才成AI发展瓶颈》

    • 来源专题:中国科学院文献情报制造与材料知识资源中心 | 领域情报网
    • 编译者:姜山
    • 发布时间:2018-01-23
    • 本报讯 “虽然人工智能技术必将改变世界这一观点已成为业界共识,但是目前,这一技术仍处于发展起步期,需要各方观点沟通碰撞,共同谋划未来。”20日,在由中国电科28所和南京大学共同发起的“人工智能技术交流会”上,来自地平线、科大讯飞、今日头条、光年无限、微软、南京大学、IBM等知名企业和高校的顶级专家学者,共同探讨如何推动人工智能技术进步,并运用这一技术成果引领行业发展。 中国电科28所副所长吴振锋表示:“人工智能已成为网络安全与信息化的核心技术,也被公认为改变世界的主导性技术,作为一个致力于国防与国民经济信息化建设的企业,希望联合最广泛的业界朋友,一起为国防建设和国民经济发展贡献创新的力量。” “中国正在成为人工智能领域的全球领导者,人工智能商业平台对未来认知企业有至关重要的作用,海量未挖掘的数据将创造新的机会,也会带来新的计算挑战,认知计算开启了一个新的计算时代。” IBM中国研究院技术总监李少春认为,未来认知企业要以开放包容的心态迎接人工智能潮流,技术上选择重点领域(比如核心AI能力,新型计算架构,AI与行业、物联网、区块链的结合)进行突破,所选领域未来有爆发点;应用上侧重于应用场景的落地;实现从认知应用到认知企业的转型。 人工智能有不同的层面,如感知智能,能听会说,能看会认;认知智能,能理解会思考;运算智能,能存会算;运动智能,能抓会握,能走会跑。“感知、运算、运动智能容易实现,而认知智能是现在的技术难点。”科大讯飞大数据研究院执行院长谭昶表示,科大讯飞正在探索脑神经科学对人工智能促进的可能性,运用深度神经网络模型与大数据的结合,加速技术迭代速度,使机器智能语音从能听会说到能理解会思考。 南京大学自然语言处理教授戴新宇说,在大型数据处理中,机器可以不知疲倦地运行算法来完成任务,花费的时间也更少,依托这种人工智能,人类可以从繁杂的重复劳动中解放出来。 在此次论坛上,专家学者们也为目前人工智能行业存在的瓶颈问题把脉建言。 光年无限公司创始人兼CEO俞志晨认为,人工智能行业目前最值得关注的问题是如何保护自主知识产权,有些公司做了很多研发和技术创新,却因违法成本低使得自主知识产权被其他公司抄袭,造成不可估量的损失。 “对于计算机而言,学习需要时间、数据和老师,而深度学习则需要大规模的标记数据。数据标记的成本非常高,并且在很多应用场景中,获取大量标记数据已是难题。”微软亚洲研究院高级研究员秦涛说,找专家来标注数据是非常昂贵的,并且对一些应用而言,很难找到大规模的标注数据,例如一些疑难杂症,或者是一些比较稀有的应用场景。因此,如何找到更好的方法获取数据,是人工智能未来发展必须解决的问题。 有数据显示,全球范围内,人工智能专业人才有195万,而中国拥有10年以上经验的资深人工智能人才相比美国,有较大差距。目前,中国在发展人工智能这一前沿领域,更多依赖于引进大量海外人才,毕竟在中国本土,高层次的相关人才极其稀缺。“其实,多年来,我们自己培养的计算机、电信、通讯等相关的人才数量庞大,只是能将各专业综合融汇的复合型人才还不多。今后,可有针对性地在高校设立更多人工智能相关专业,从源头上打造人工智能人才队伍。”中国电子科技集团首席专家梁维泰建议说。 (可轩 张宣 红梅)
  • 《医疗AI与GPT | 梳理全球医疗大模型》

    • 来源专题:数智化图书情报
    • 编译者:闫亚飞
    • 发布时间:2023-09-27
    • 一、国外医疗大模型 1、谷歌医疗大模型(Med-PaLM) 谷歌和DeepMind的科研人员在《自然》杂志上发表了一项研究,根据其研究结果,一组临床医生对谷歌和DeepMind团队的医疗大模型Med-PaLM回答的评分高达92.6%,与现实中人类临床医生的水平(92.9%)相当。 2、BioMedLM(PubMedGPT) 斯坦福基础模型研究中心(CRFM)和MosaicML联合开发了BioMedLM (PubMedGPT)模型,一种经训练可以解释生物医学语言的大型语言模型。CRFM使用MosaicML平台,根据PubMed的生物医学数据训练了2.7B 参数 GPT,在美国医疗执照考试 (USMLE)的医疗问答文本上取得了最先进的结果。在Pile数据集的 PubMed Abstracts 和 PubMed Central 部分上训练了 BioMedLM。该数据集包含约 50B 个标记,涵盖由美国国立卫生研究院策划的生物医学文献中的 1600 万篇摘要和 500 万篇全文文章。 3、GatorTron GatorTron是由佛罗里达大学开发的电子病历(EHR)大数据模型,从头开始开发了一个LLM(没有基于其他预训练模型),使用89亿个参数和来自电子健康记录的>900亿字的文本来改进5个临床自然语言处理任务,包括医疗问题回答和医疗关系提取。 虽然比Med-PaLM的模型小得多,但这是第一个由学术医疗机构开发的医学基础模型,而不是像谷歌、OpenAI或Meta这样的大型科技公司。 这个数据来源是从UF Health综合数据存储库(IDR)——UF Health系统的企业数据仓库中提取了来自247万名患者的总计2.9亿份临床笔记。这些笔记是在2011-2021年创建的,来自超过126个临床科室和约5千万次接触,涵盖了医疗环境,包括但不限于住院病人、门诊病人和急诊部门的访问。经过预处理和去识别,该语料库包括超过820亿个医疗词汇。 4、CLINICAL QA BIOGPT (JSL) John Snow Labs 长期以来一直是自然语言处理(NLP)工具和算法在医疗用例中的领先者。除了数据标记和提取之外,他们还拥有用于去标识化临床笔记和医疗数据的工具。JSL 最近宣布了一种基于 BioGPT(一个较旧、较小的医疗信息训练的大型语言模型)的LLM(BIOGPT (JSL) ),通过基于JSL数据和NLP工具的微调。该模型在患者去标识化、实体解析(如提取操作代码和医疗术语)以及临床摘要的准确性等领域可能表现更好,甚至可能优于ChatGPT。 https://nlp.johnsnowlabs.com/2023/04/12/biogpt_chat_jsl_en.html 5、ChatDoctor ChatDoctor:使用医学领域知识在大型语言模型LLaMA上进行微调的医疗大模型。 收集了 700 多种疾病及其对应的症状 + 所需医学检查 + 推荐的药物, 以此生成了 5k 次医患对话数据集。此外, 还从在线问答医疗咨询网站获得了 200k 条真实的医患对话数据集。 使用 205k 条医患对话数据集对 LLM 进行微调, 生成的模型在理解患者需求, 提供合理建议并在各种医疗相关领域提供帮助方面能力显著提高。 此外,为了提高模型的可信度,该项目还设计了一个基于Wikipedia和医疗领域数据库的知识大脑,它可以实时访问权威信息,并根据这些可靠信息回答患者的问,这对容错率较低的医疗领域至关重要。 实验表明,医生患者对话的微调模型在精度、召回率和F1方面超过ChatGPT。 https://www.yunxiangli.top/ChatDoctor/ 二、中文医疗大模型 1、DoctorGLM 基于 ChatGLM-6B的中文问诊模型 基于 ChatGLM-6B的中文问诊模型,通过中文医疗对话数据集进行微调,实现了包括lora、p-tuningv2等微调及部署。 Github地址:https://github.com/xionghonglin/DoctorGLM 2、BenTsao 开源了经过中文医学指令精调/指令微调(Instruct-tuning) 的LLaMA-7B模型。通过医学知识图谱和GPT3.5 API构建了中文医学指令数据集,并在此基础上对LLaMA进行了指令微调,提高了LLaMA在医疗领域的问答效果。 地址:https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese 3、BianQue 一个经过指令与多轮问询对话联合微调的医疗对话大模型,基于ClueAI/ChatYuan-large-v2作为底座,使用中文医疗问答指令与多轮问询对话混合数据集进行微调。 地址:https://github.com/scutcyr/BianQue 4、HuatuoGPT 开源了经过中文医学指令精调/指令微调(Instruct-tuning)的一个GPT-like模型 地址:https://github.com/FreedomIntelligence/HuatuoGPT 5、Med-ChatGLM 基于中文医学知识的ChatGLM模型微调,微调数据与BenTsao相同。 地址:https://github.com/SCIR-HI/Med-ChatGLM 6、QiZhenGPT 该项目利用启真医学知识库构建的中文医学指令数据集,并基于此在LLaMA-7B模型上进行指令精调,大幅提高了模型在中文医疗场景下效果,首先针对药品知识问答发布了评测数据集,后续计划优化疾病、手术、检验等方面的问答效果,并针对医患问答、病历自动生成等应用展开拓展。 地址:https://github.com/CMKRG/QiZhenGPT 7、ChatMed 该项目推出ChatMed系列中文医疗大规模语言模型,模型主干为LlaMA-7b并采用LoRA微调,具体包括ChatMed-Consult : 基于中文医疗在线问诊数据集ChatMed_Consult_Dataset的50w+在线问诊+ChatGPT回复作为训练集;ChatMed-TCM : 基于中医药指令数据集ChatMed_TCM_Dataset,以开源的中医药知识图谱为基础,采用以实体为中心的自指令方法(entity-centric self-instruct),调用ChatGPT得到2.6w+的围绕中医药的指令数据训练得到。 地址:https://github.com/michael-wzhu/ChatMed 8、XrayGLM,首个会看胸部X光片的中文多模态医学大模型 该项目为促进中文领域医学多模态大模型的研究发展,发布了XrayGLM数据集及模型,其在医学影像诊断和多轮交互对话上显示出了非凡的潜力。 地址:https://github.com/WangRongsheng/XrayGLM 三、国内产业界的医疗大模型 1、百度灵医大模型 2023年9月19日,百度正式发布国内首个“产业级”医疗大模型——灵医大模型。灵医大模型聚焦智能健康管家、智能医生助手、智能企业服务三大方向,为患者、医院、企业等提供AI原生应用。 灵医大模型能够结合自由文本秒级生成结构化病历,根据医患对话精准分析生成主诉、现病史等内容。此外,灵医大模型也是业内唯一支持多篇中英文文献同时解析的大模型,基于文献解析内容实现智能问答。在辅助诊疗方面,灵医大模型可实现通过多轮对话了解病人病情,实时辅助医生确诊疾病,推荐治疗方案,提升就诊全流程的效率和体验,并成为患者的24小时“健康管家”,提供智能客服服务。此外,灵医大模型还能为药企提供多项赋能,包括专业培训、医药信息支持等等。 2、京东京医千询 京东健康发布了“京医千询”医疗大模型,可快速完成在医疗健康领域各个场景的迁移和学习,实现产品和解决方案的全面AI化部署。 3、腾讯混元医疗大模型 腾讯混元大模型预训练用到的数据高达2万亿tokens,比不少模型高出一个量级。训练数据涵盖285万医学实体、1250万医学关系,覆盖98%医学知识的医学知识图谱和中英文医学文献。这些知识既对大量论文、百科全书、用药说明书中的知识进行了萃取,又纳入了腾讯医典中各个医学专家撰写的针对性的医学文章。所有知识来源都已经过验证,因而可为大模型输出的结果提供权威依据。 一方面来源于患者场景,如线上问诊、医学问答、导诊、预问诊;另一方面来源于医生场景,如医学考题、病历生成、出院小结、检查建议、诊断结果和用药建议。 4、医联MedGPT 预训练阶段使用了超过20亿的医学文本数据,微调训练阶段使?了800万条的高质量结构化临床诊疗数据,并投入超过100名医生参与人工反馈监督微调训练。 5、商汤 “大医”大模型 基于海量医学知识和临床数据打造了中文医疗语言大模型“大医”,可以提供导诊、健康咨询、辅助决策等多场景多轮会话能力。此外,商汤科技同样推出了医疗影像大模型、生信大模型等多种垂类基础模型群,覆盖CT、MRI、超声、内镜、病理、医学文本、生信数据等不同医疗数据模态。 6、云知声山海大模型 云知声将以山海大模型为基础,增强物联、医疗等行业能力,为客户提供更智能、更灵活的解决方案。在医疗场景,发布手术病历撰写助手、门诊病历生成系统、商保智能理赔系统三大医疗产品应用。 7、微脉CareGPT CareGPT 致力于在真实的医疗服务场景中充分发挥健康管理价值,实现预防、咨询、预约、康复的全周期智能化健康管理能力。目前参数规模为 70 亿,可支持医疗健康场景下的多模态输入和输出。 8、东软添翼医疗 医生通过自然语言与添翼交互,快速、精准地完成医疗报告与病历、医嘱开立;面向患者,添翼让问诊更便捷,成为患者全天私人专属医生,提供全面的诊后健康饮食、营养与运动建议等服务。添翼的多模态数据融合能力,也将为医院管理者提供对话式交互与数据洞察,简化数据利用,让医院管理更精细。 9、叮当健康HealthGPT 叮当HealthGPT可以作为AI健康助手,为用户提供全方位的健康相关问题解答和专业建议。无论用户对就医流程、疾病治疗、药品使用、检查结果解读感兴趣,还是关注疾病预防、养生保健、饮食营养、美容健身、家庭医疗护理、心理健康和压力管理,叮当HealthGPT都能满足用户的需求。 10、水木分子ChatDD 新一代对话式药物研发助手ChatDD 及全球首个千亿参数多模态生物医药对话大模型ChatDD-FM 100B,ChatDD (Chat Drug Discovery & Design) 基于大模型能力,则能够对多模态数据进行融合理解,与专家自然交互人机协作,将人类专家知识与大模型知识联结,具备问题理解、任务拆解、工具调用等能力,或有可能重新定义药物研发模式。 11、华为云盘古药物分子大模型 华为云盘古大模型已经深入金融、制造、政务、电力、煤矿、医疗、铁路等10多个行业,支撑400多个业务场景的AI应用落地。2021年发布的华为云盘古药物分子大模型,是由华为云联合中国科学院上海药物研究所共同训练而成的大模型,可以实现针对小分子药物全流程的人工智能辅助药物设计。实验验证结果表明,盘古药物分子大模型的成药性预测准确率比传统方式高20%,进而提升研发效率,让先导药的研发周期从数年缩短至一个月,同时降低70%的研发成本。 12、智云健康:ClouD GPT 依托大数据平台、机器学习平台、模型开发平台、模型训练平台等基础平台,智云健康开发出医疗行业模型ClouD GPT,已经落地在智云AI辅助诊断和AI药物、器械研发的医疗应用场景。 13、卫宁健康:WiNEX Copilot 卫宁健康已于2023年1月开展了医疗垂直领域的大语言模型WiNGPT的研发和训练工作,截至4月、6月和9月的模型训练参数量达到或将达到60亿、156亿、650亿,目前正在探索更多的医疗应用场景,计划于10月正式发布由GPT技术加持的新产品WiNEX Copilot。 14、创业慧康BSoftGPT BSoftGP将以API调用结合本地部署的方式聚合利用通用GPT模型,同时通过本地部署embedding向量数据库以及公司自有的领域知识库,通过医疗垂直领域的语言模型训练和微调逐步实现产品力,并向公司内外部的应用场景,比如在医疗服务和个人健康等场景中输出AI智能服务。 在临床医疗服务方面,BSoftGPT可以根据医生提供的病历信息和临床数据,自动化生成临床决策建议和治疗方案,从而辅助医生进行临床决策,提升现有的临床决策支持系统CDSS的智能化水平;在面向患者服务方面,BSoftGPT可以通过与患者进行自然语言交互,实现贯穿患者诊前诊中诊后全流程的智能导诊、管理。 15、科大讯飞:星火认知 基于星火认知大模型升级的讯飞医疗诊后康复管理平台,将专业的诊后管理和康复指导延伸到了院外。根据患者健康画像自动分析,平台可为患者智能生成个性化康复计划,并督促患者按计划执行。目前,讯飞诊后康复管理平台试点已取得显著效果:提高合作医院医生的管理效率10倍以上,患者康复过程中的随访率和咨询回复率达到100%,出院患者满意度达到98%以上。 16、中国科学院自动化研究所紫东太初 “紫东太初”定位为跨模态通用人工智能平台,于2021年正式发布。今年6月16日,紫东太初发布2.0版本,目前,“紫东太初”大模型已展现出广阔的产业应用前景,在神经外科手术导航、短视频内容摘要、法律咨询、医疗多模态鉴别诊断、交通图像研读等领域开始了一系列引领性、示范性应用。 在医疗领域,基于紫东太初大模型开放服务平台,实现数据智能标注、高效模型训练、模型灵活部署,实现骨科器械/耗材的自动识别和清点,实现智能化、精细化管理,效率相比传统方式提升了6倍,准确率高达97%以上。 17、深圳市大数据研究院&香港中文大学(深圳)华佗GPT 今年6月,华佗GPT的最新的内测版本在深圳发布。由深圳市大数据研究院和香港中文大学(深圳)联合研发的华佗GPT,使用一亿问答(50G)和10-20T医疗文本,是最大的医疗问答数据集。主要应用于医疗咨询和情感陪伴,包括患者培训、健康咨询、就医分诊等。 华佗GPT是通过融合ChatGPT生成的 “蒸馏数据”和真实世界医生回复的数据,训练并开源了一个新的医疗大模型。自动与人工评测结果显示,华佗GPT在单轮与多轮问诊场景都优于现有中文医疗人工智能模型和GPT-3.5,充分证明其处理复杂问诊对话的能力。下一步,华佗GPT将支持多模态输入。 18、北京智谱华章科技有限公司&北京中医药大学东方医院:基于“GLM-130B”的数字中医大模型 6月27日,北京市首批10个人工智能行业大模型应用案例发布,其中包括北京智谱华章科技有限公司和北京中医药大学东方医院共同开发的数字中医大模型示范应用。该项目项目选用了基于智谱华章高精度千亿中英双语稠密模型“GLM-130B”,面向中医领域名医经验挖掘整理需求,构建数字中医服务平台,探索高危肺结节人工智能临床诊疗和临床评价研究等解决方案,实现中医临床经验的智慧化复制新模式。项目已初步研发了医疗垂直领域的问答功能,支持对医疗、健康问题进行智能化知识问答;同时开发了根据症状生成中医处方,并提供处方主治症候医学解释等辅助诊疗功能。 19、哈尔滨工业大学:“本草”中文医学大模型(原名:华驼) 据今年5月报道,哈尔滨工业大学的研究团队训练出中文医学大模型,命名为“华驼”,后更名为“本草”。“本草”团队主要利用了中文医学知识图谱CMeKG和2023年关于肝癌疾病的中文医学文献,借助OpenAI API,分别构造了8000条问答数据和1000条多轮对话训练数据。然后,基于LLaMA-7B基座模型,进行有监督的微调,构建了“本草”中文医学大模型。 20、上海人工智能实验室:OpenMEDLab浦医 6月29日,由上海人工智能实验室牵头,并联合国内外顶级科研机构、高校及医院共同发布全球首个医疗多模态基础模型群“OpenMEDLab浦医”,并逐步开源。“OpenMEDLab浦医”融合了全球顶尖的AI研发能力、海量医学数据以及医学专家知识,首批发布的基础模型群中,包含基于医学图像、医学文本、生物信息、蛋白质工程等10余种数据模态训练而成的基础模型。该模型将促进基于医疗基础模型的跨领域、跨疾病、跨模态科研突破,同时助力解决医疗领域的长尾问题,推动医疗大模型的产业落地。