欢迎光临散文网 会员登陆 & 注册

肺癌检测 DICOM 医学数字影像数据集

2022-04-02 17:14 作者:跨象乘云  | 我要投稿

此前,在跨象乘云™ 近日开源发布的《DICOM 医学数字影像预处理 - 人工智能垂直领域工程项目案例库》中,采用的数据集来自 2017 年数据科学碗比赛。在这个数据集中,有超过 1000 张来自高危患者的 DICOM 格式 CT 图像。每个图像包含一系列的胸部轴向切片。每个图像都有不同数量的 2D 切片,这些切片可以根据扫描的机器和病人的不同而变化。你利用 Pydicom 库实现了对 DICOM 医学数字影像的预处理。通过上面的步骤,图像已经可供 CNN 或其他机器学习方法使用。

在此数据集中,您将获得一千多张来自高危患者的 DICOM 格式的低剂量 CT 图像。每个图像都包含一系列胸腔的多个轴向切片。每个图像都有可变数量的 2D 切片,这些切片可能因进行扫描的机器和患者而异。DICOM 文件有一个标题,其中包含有关患者 ID 的必要信息,以及切片厚度等扫描参数。竞赛任务是创建一种自动化方法,能够确定患者是否会在扫描之日起一年内被诊断出患有肺癌。基本事实标签通过病理学诊断得到确认。由于完整的数据集非常庞大,超过 160 GB,在本案例实验环节,仅抽取其中一名病患的 DICOM 图像进行处理。

该数据集中的图像来自许多来源,并且质量会有所不同。例如,较旧的扫描使用不太复杂的设备进行成像。总体而言,您应该期望第 2 阶段的数据比第 1 阶段的数据更新且质量更高(通常具有更薄的切片厚度)。理想情况下,您的算法应该在一系列图像质量上表现良好。

文件说明:每个患者 ID 都有一个关联的 DICOM 文件目录。患者 ID 位于 DICOM 标头中,与患者姓名相同。图像的确切数量会因情况而异,根据切片的数量而有所不同。由于数据集的大小,图像被压缩为 .7z 文件。

  • stage1.7z - 包含比赛第一阶段的所有图像,包括训练集和测试集

  • stage2.7z - 包含比赛第二阶段的所有图像,包括训练集和测试集

  • stage1_labels.csv - 包含第 1 阶段训练集图像的癌症基本事实

  • stage2_sample_submission.csv - 显示第 2 阶段的提交格式

然而,由于数据集使用限制,本次比赛的数据在 Kaggle 上不再可供下载。您可以通过以下链接下载完整的原始数据集。

链接: https://pan.baidu.com/s/1y8WSIfNPRs9OzoGqchNKaA   提取码: n5i3

备用: https://pan.baidu.com/s/1qePTL1vsjmScuSqG9SEoDQ   提取码: vfhd

个人用户请微信搜索【跨象乘云】公众号(kxcy_ai)或扫描下方二维码,关注后发送关键字【220402】,免费获取视频内代码与数据集。跨象乘云™ 原创实验演示视频内全部代码、数据集仅授权予个人用户学习与实验使用。禁止用于二次销售、分发传播、课堂教学及培训用途。校企用户采购请通过公众号菜单【了解我们】->【商务合作】联系。

跨象乘云公众号:kxcy_ai 


肺癌检测 DICOM 医学数字影像数据集的评论 (共 条)

分享到微博请遵守国家法律