医联:AI测评开创行业新标杆
整个评测的设计相当严谨,问诊过程中,真人医生和AI医生都没有与患者直接接触,患者与医生助理接触,医生助理通过电脑输入文字分别与真人医生和AI医生联系,真人医生和AI医生的问题也经由医生助理传递给患者。引导患者说出完整病情、收集足够多决策因子后,真人医生与AI医生为患者开具检查单或诊断,患者直接在成都高新海尔森医院完成检查;获得检查结果后,患者再复诊,并由AI医生及真人医生提供临床诊断及治疗方案。某种程度上说,这是一项被医药行业认为是金标准的“双盲”试验。
8个小时的问诊结束后,形成有效病例91份,由北大人民医院、中日友好医院、阜外医院和友谊医院的7位专家教授进行审核。7位专家教授的专业与前述科室对应,评价维度包括7个——问诊准确性、诊断准确性、治疗建议准确性、辅助检查方案准确性、数据分析准确性、提供可解释信息、自然语言问诊与交互。
北京友谊医院泌尿外科主任医师、副教授王磊评价,MedGPT不会漏掉患者提供的重要信息,询问病史非常全面,避免出现漏诊的情况。知识面也比较丰富,会给患者解答其他科室的问题。
北大人民医院骨科主任医师、教授薛峰以一个膝盖痛的病例举例分析,他认为AI医生问诊非常详细,“不嫌累,话多,问题也很多”,会关注女性患者是否正在备孕、怀孕,而现实临床工作中,骨科医生较少会问这类问题,“有些细节问题漏掉之后很容易犯一些错误,一些症状漏掉之后也可能漏诊”。对膝盖痛这种常见疾病,很多时候医生需要做一些科普,告知患者生活中需要注意的事项,AI医生的详细表达也会给患者更多信息。
薛峰还发现了一个“惊喜”:MedGPT根据患者脚底板疼痛判断患者有可能出现神经压迫,真人医生却没有想到这一点。
“超出预期,问诊很详细,可以不知疲倦地和患者耐心沟通,在常见病领域还能起到对患者科普的作用;但是现阶段的AI医生无法实现查体,未来在医学多模态能力上还需要突破才有更大的应用价值。”薛峰总结说。