全球首次! 医联AI医生完成真实世界测试,与三甲医生一致性达96%
医疗AI大模型的应用,国内外都在抢先落地。近期该领域就出现了两则重磅消息:一是,医联MedGPT完成真实世界测试,与三甲医院医生医学一致性达到96%;二是,谷歌Med-PaLM与临床医生进行医学问题回答测试,92.6%的长篇答案符合科学共识,与临床医生生成的答案(92.9%)相当。
具体来看,医联率先完成了其旗下医疗AI大模型产品MedGPT 的真实世界测试。在6月30日,120多位真实患者和10位来自四川大学华西医院的主治医师以及MedGPT共同参与了这场评测研究。具体的评测方式如下,患者进入诊室后,将与医助沟通自身病情,医助通过线上文字输入的方式将患者主诉传达给真人医生与AI医生并协助医患完成多轮沟通,在收集足够的决策因子后,真人医生与 AI 医生为患者开具检查单或诊断,患者直接在举行测试的医院完成检查;在获得检查结果后,患者进行复诊,并由AI医生及真人医生提供临床诊断及治疗方案。通过以上流程,可以在条件基本一致的情况下,让真人医生与AI医生进行互不干涉的独立诊断。
(医联MedGPT评测流程)
最终,经过来自北大人民医院、中日友好医院、阜外医院和友谊医院的7位专家教授针对评测形成的91份有效病例进行审核,并且针对AI医生的问诊准确性、诊断准确性、治疗建议准确性、辅助检查方案准确性、数据分析准确性、提供可解释信息、自然语言问诊与交互这7个评价维度的打分之后,最终,真人医生综合得分为 7.5分,AI 医生综合得分为 7.2分。AI医生与三甲主治医生在比分结果上的一致性达到了96%。这也是全球首次人类医生与AI医生面对真实患者的能力验证对比。
随后,谷歌公布了医疗大模型Med-PaLM近期的测试数据,研究人员表示,在引入指令提示调整后,由此产生的模型Med-PaLM表现令人鼓舞:92.6%的长篇答案符合科学共识,与临床医生生成的答案(92.9%)相当;5.9%的答案被评为可能导致有害结果,与临床医生生成的答案(5.7%)的结果相似。
尽管结论一致,但是两者的不同在于,医联的MedGPT的评测是基于真实患者的真实世界测评,而Med-PaLM则是针对“医学问题”的回答。
对于Med-PaLM表现的评价,巴斯大学教授詹姆斯·达文波特(James Davenport)告诉《每日邮报》:“新闻稿描述了这篇论文如何推进我们使用大型语言模型回答医学问题的知识,就其本身而言是准确的。但是房间里有一头大象,这就是‘医学问题’和实际行医之间的区别。行医并不只是回答医学问题,如果纯粹是回答医学问题,我们就不需要教学医院,医生也不需要在学术课程之后接受多年的培训。”
(医联MedGPT评审维度)
而针对MedGPT,来自北大人民医院、中日友好医院、阜外医院和友谊医院的7位专家教授的评价也颇有意思。比如来自中日友好医院的主任医师任景怡教授表示:“尽管MedGPT还有很多的问题,但我觉得迈出了这一步,算是里程碑的结果。它在诊断不明的时候一直坚持没有给患者以治疗手段,这点我认为值得鼓励,在诊断不明的时候,随便给出治疗手段会犯更大的错误,坚持很重要。”
来自北大人民医院的主任医师薛峰表示:“(MedGPT)超出预期,问诊很详细,可以不知疲倦的和患者耐心沟通,在常见病领域还能起到对患者科普的作用;但是现阶段的AI医生无法实现查体,未来在医学多模态能力上还有突破才有更大的应用价值。”
一家国内领先的数字医疗企业,与国际领先的科技公司先后在医疗AI大模型领域交出了各自的成绩单。全球医疗领域的大模型赛跑,才刚刚拉开序幕。