想搞医疗大模型但是缺少数据的同学看过来：Quilt-1M：病理学的一百万个图文对

2023-10-08 16:15 作者:听取蛙蛙声一片 0人读过 | 我要投稿

QUILT-1M：迄今为止最大的组织病理学数据集，由一百万个图像和文本对组成，在其上进行预训练是非常有价值的，在各种子病理类型和任务（包括零样本、小样本、跨模态检索等）上建立了新的最先进技术！代码和数据集已开源！单位：华盛顿大学最近，由于在线提供了大量的图像和文本数据，多模态应用的加速成为可能。然而，医学领域，特别是组织病理学领域类似数据的缺乏，阻碍了类似的进展。为了对组织病理学进行类似的表示学习，我们求助于 YouTube，这是一种尚未开发的视频资源，提供了 1,087 小时来自专家临床医生的宝贵教育组织病理学视频。我们在 YouTube 上策划了 Quilt：一个由 768,826 个图像和文本对组成的大规模视觉语言数据集。 Quilt 是使用多种模型自动策划的，包括大型语言模型、手工算法、人类知识数据库和自动语音识别。相比之下，最全面的组织病理学数据集仅收集了大约 20 万个样本。我们将 Quilt 与来自其他来源（包括 Twitter、研究论文和互联网）的数据集相结合，以创建一个更大的数据集：Quilt-1M，具有 1M 对图像文本样本，将其标记为最大的视觉语言组织病理学数据集迄今为止。我们通过微调预训练的 CLIP 模型来展示 Quilt-1M 的价值。我们的模型在零样本和线性探测任务上优于最先进的模型，用于在 8 种不同的子病理和跨模态检索任务的 13 个不同的patch级数据集中对新的组织病理学图像进行分类。数据集和代码：https://github.com/wisdomikezogwo/quilt1m 论文下载链接：https://arxiv.org/abs/2306.11207