欢迎光临散文网 会员登陆 & 注册

Validation of dermoscopy-based open-source AI for melanoma diagn

2023-08-18 15:06 作者:傑君  | 我要投稿

论文全文为:

Prospective validation of dermoscopy-based open-source artificial intelligence for melanoma diagnosis (PROVE-AI study

一篇发表在Natrure上的文章,近日拜读了一下,看看Nature的实力。

1. 简介:

医疗诊断中,想要诊断黑色素瘤需要进行多次皮肤活检,具有挑战性。

非侵入式的黑色素瘤诊断方法有这些:多光谱成像、反射共聚焦显微镜 (RCM)、电阻抗光谱和粘合剂,皮肤贴片测试,这些方法都没有得到广泛应用

AI方法相比这些方法,具有图片获取简单,成本低的优势,诊断能力已经超过了专家水平,还可以作为辅助手段提升皮肤科医生的准确率,但目前存在外部验证的问题(训练测试都在私有数据集上)。

于是他们(authors)通过ISIC,举办了五年的黑色素瘤检测比赛,解决外部数据问题,其中2020年的ALL Data Are Ext(ADAE)算法就专门针对公共皮肤镜图像进行了训练。(这个算法开源、非商业、可修改适配任务,所以具有很大潜力)

1.1 数据集情况

  • 参与者:

435名参与者,603份病变数据,平均年龄59(年龄区间50-71岁),54%为女性,96%为白人。

  • 病变情况:

95例黑色素瘤,508例非黑色素瘤数,经过活检后被纳入。

49份(52%)黑色素瘤出现在原位(位于皮肤最外层),另外46份侵入式黑色素瘤的中位厚度为0.56mm(范围0.2-7.3mm),其中两例大于1mm。

非黑色素瘤中,包括312例痣,45例斑纹(雀斑),28例非典型黑素细胞增生,23例脂溢性角化病,22例角质细胞癌。

  • 医生相关信息

11位医生提供了参与者数据,其中5位医生贡献了超过20位参与者,97%病变相关的数据,提供了黑色素瘤数据中的94%和非黑色素瘤数据中的98%。这些医生的平均从业时间16年,临床经验也为16年(范围3-33年)。

1.2 结果

  • AUC结果

ADAE能达到0.857AUC,高于医生的黑色素瘤估计概率0.780(P=0.007),病变最大直径 (0.758; p < 0.001)

和患者年龄 (0.649; p < 0.001),该结果和 2020 年组织病理学证实的2020 SIIM-ISIC 挑战测试集下测试得到的  AUC 相似(0.854; p = 0.882)。

  • 敏感性

在预先设定的95%的敏感性阈值下,ADAE对于黑色素瘤的敏感性为96.8%(95% CI:91.1-98.9%),特异性为37.4%(95% CI:33.3-41.7%)。在这个阈值(95%)下,侵入性和原位黑色素瘤的ADAE敏感性差异不显著(95.7% vs 98.0%,p = 0.609)。ADAE对于不确定性黑色素瘤(排除边缘病例)的敏感性为96.3%。子组分析没有发现与较低敏感性相关的患者或病变因素(这些比较的统计功效较低)。

  • 特异性

敏感性部分中已经定量特异性,接下来是定性描述。

多元分析表明,算法的特异性与患者年龄、解剖部位和最大直径显著相关,65岁以上的患者和头颈部病变以及直径>6mm的病变的特异性较低。皮肤类型III的患者的特异性也比皮肤类型I的患者高(p = 0.002)。

1.3 医生对ADAE的影响

分析不同的皮肤科医生和不同的病变特征对ADAE算法表现的影响。他们发现,不同的皮肤科医生招募了不同类型和数量的病变,导致他们看到的ADAE分数分布也不同。例如,有些医生招募了更多高风险或低风险的病变,而有些医生招募了更多中等风险的病变。这可能反映了他们对于黑色素瘤诊断的经验和信心,以及他们对于ADAE算法的信任度和使用方式。

受到这些医生的影响,ADAE算法的敏感性在预先设定的阈值下范围为89%100%不等,而特异性则是0%到45%不等。

对于一些没有黑色素的皮肤病变的诊断也有较高的准确性,表现均高于阈值,其中包括1个黑色素瘤、1个非典型黑素细胞增生、1个原位鳞癌和8个良性病变。

大多数(518例86%)的病变皮肤周边都伴随着光损伤,存在光损伤的病变更容易是黑色素瘤(16.9% vs. 8.2%; p = 0.038)。

在非黑色素瘤的病变类型中,基底细胞癌和鳞状细胞癌的ADAE评分最高,达到100%,其次是非黑色素瘤碰撞肿瘤(94%)、光化性角化病(92%)、非典型黑素细胞增生(89%)、色素性痣(87%)、脂溢性角化病(74%)和痣(45%)。

在其他数据集上也达到了较好的表现,ADAE算法在另一项回顾性研究中,对黑色素瘤的敏感度为100%,特异度为34.7%

1.4 ADAE辅助医生的影响

  • 置信度

医生在使用ADAE辅助前的平均置信度为3.4(IQR:3-4),使用ADAE辅助后的平均置信度为3.3(IQR:3-4)。

在考虑ADAE的输出后,16.4%的案例置信度上升,而百分之18.7%的案例置信度下降。分析结果表明,有一位医生在接触ADAE之后信心下降,有一位医生信心上升,其他医生则没有显著变化。

  • AUC

在使用ADAE后,AUC从0.7798上升到了0.8161,即使去掉提供最多病变的医生(最见多识广)后,AUC仍然从0.7663上升到0.8081,最主要的四名医生(五名提供了最多样本的医生减去刚才的最见多识广医生)的AUC均上升了(增长3.94%到11.57%)。

  • 预测黑色素瘤概率影响

皮肤科医生在看到ADAE的结果后,他们预测黑色素瘤概率的平均值从20%变为24%,而黑色素瘤的患病率只有16%,这表明他们的平均校准变差了。这种影响在5位主要参与招募的皮肤科医生中存在差异,其中3位医生的平均校准得到了改善,而另外2位医生则变得更差。

  • 活检影响

在看到皮肤ADAE的结果后,皮肤科医生结合理论上的考量,避免了29%的活检,但这一数据存在个体差异。在116个病例中,选择了非侵入性测试(即STM、RCM、粘贴贴片),而在59个病例中选择了没有测试(即常规随访)。活检与不活检决策阈值的敏感度和特异度分别为96%和34%。这意味着95个黑色素瘤中有4个不会进行活检,但508个良性病变中有171个可以避免不必要的活检。

  • 总结

基于以上结果,ADAE算法对医生的决断是存在潜在影响的,使用决策曲线分析后得到,这是一种考虑避免不必要活检所带来的收益以及忽略黑色素瘤活检的风险的方法,它显示了在不同的风险阈值下,皮肤科医生在接触ADAE结果后再根据理论选择的方法(不活检),与默认策略(活检所有皮损)相比具有更高或相当的净效益(图3)。

图3它显示了一个决策曲线图,该图显示了避免不必要干预次数与风险阈值之间的关系。这个图表显示了在不同的风险阈值下,皮肤科医生在接触ADAE结果后的理论管理选择与默认策略(活检所有皮损)相比具有更高或相当的净效益。这个图表还提到了一个阈值概率为5%的例子,这意味着错过1个黑色素瘤的危害相当于19个不必要的良性皮肤活检的危害。在这种情况下,暴露于ADAE结果的皮肤科医生理论上可以将不必要的活检数量降低约15-20个/100,而不会漏诊任何患有黑色素瘤的患者。这段文字还指出,所有22个组织病理学鳞状细胞癌都被排除在决策曲线分析之外,因为它们不被视为等同于良性皮肤病变。

2. 讨论

2.1 特异性

对于65+的老人和一型皮肤,ADAE的特异性都更低。与此同时,对于头/颈部病变(直径 > 6 毫米、周围有病变周围光损伤)、光化性角化病、日光性雀斑和非黑素细胞碰撞瘤的特异性也较低。(对于其他病变)

这些都可以证明ADAE可以针对强化训练,具有更多的潜力。同时根据以上说法,ADAE在评估疑似黑色素瘤的皮肤病变时,可能对躯干或四肢(这些部位与突发的强烈日晒有关,临床上黑色素瘤又容易与痣混淆)上的年轻人,临床鉴别诊断为痣时最有帮助。

2.2 前瞻相关

认为前瞻性的研究可以减少实验中或诊断中带来的误差,验证方法和标准的更新也可以减少过往实验中产生的误差(如何处理边界数据等)

这项研究的独到之处是将ADAE的诊断准确性与在真实临床环境中从事皮肤癌检测的专家皮肤科医生进行比较(ADAE显著高于医生)。以前的研究都涉及到临床信息不完整,重点放在了实习医师或远程皮肤科医生上,没有完全评估皮肤科医生的表现。

这项研究的局限性包括其单中心设计少数皮肤科医生的纳入以及病变样本量相对较小,特别是罕见的黑色素瘤亚型。这些会影响多中心设计以及数据的生成,这些局限性影响了我们数据的有效性和普适性。

总而言之,该文章实验弥补了临床方面的空白,验证了ADAE的有效性,但也指出了ADAE具有很多潜力可挖,同时数据的来源(多医院,多种人群)以及研究对象(更多皮肤病)可以更加广泛,之后会进行这方面的工作。

3. 方法

在实验部分主要研究主题是

1.ADAE的准确度

2.ADAE对皮肤科医生决策的潜在影响

3.1 算法及选择理由

选择了ADAE算法,该算法是ISIC2020黑色素瘤分类挑战者中的冠军,3308个队伍中脱颖而出,平均AUC 0.9490

ADAE使用了18个预测模型,每一个模型都进行了折训练,总共90个模型权重,其中16个网络是基于EfficientNet2个使用ResNet,其中4个使用了医疗原始数据(age,sex,imagesize..),所有模型分数参考挑战要求,对分数进行对数之后平均。

之后文章部分很多细节,总而言之就是经过多重验证和专业人员层层审核,再通过随机抽样等方法,确认了数据集的可靠性。都是具体实施过程,个人认为没有太多参考价值,多是与数据获取有关。

花费了好多时间看的,真辛苦呀,ISIC数据集都是这批人弄出来的,如此大量实验,有经费真的是为所欲为,难怪上Nature,羡慕。

https://doi.org/10.1038/s41746-023-00872-1


Validation of dermoscopy-based open-source AI for melanoma diagn的评论 (共 条)

分享到微博请遵守国家法律