欢迎光临散文网 会员登陆 & 注册

想搞医疗大模型但是缺少数据的同学看过来:Quilt-1M:病理学的一百万个图文对

2023-10-08 16:15 作者:听取蛙蛙声一片  | 我要投稿

QUILT-1M:迄今为止最大的组织病理学数据集,由一百万个图像和文本对组成,在其上进行预训练是非常有价值的,在各种子病理类型和任务(包括零样本、小样本、跨模态检索等)上建立了新的最先进技术!代码和数据集已开源!单位:华盛顿大学 最近,由于在线提供了大量的图像和文本数据,多模态应用的加速成为可能。 然而,医学领域,特别是组织病理学领域类似数据的缺乏,阻碍了类似的进展。 为了对组织病理学进行类似的表示学习,我们求助于 YouTube,这是一种尚未开发的视频资源,提供了 1,087 小时来自专家临床医生的宝贵教育组织病理学视频。 我们在 YouTube 上策划了 Quilt:一个由 768,826 个图像和文本对组成的大规模视觉语言数据集。 Quilt 是使用多种模型自动策划的,包括大型语言模型、手工算法、人类知识数据库和自动语音识别。 相比之下,最全面的组织病理学数据集仅收集了大约 20 万个样本。 我们将 Quilt 与来自其他来源(包括 Twitter、研究论文和互联网)的数据集相结合,以创建一个更大的数据集:Quilt-1M,具有 1M 对图像文本样本,将其标记为最大的视觉语言组织病理学数据集 迄今为止。 我们通过微调预训练的 CLIP 模型来展示 Quilt-1M 的价值。 我们的模型在零样本和线性探测任务上优于最先进的模型,用于在 8 种不同的子病理和跨模态检索任务的 13 个不同的patch级数据集中对新的组织病理学图像进行分类。 数据集和代码:https://github.com/wisdomikezogwo/quilt1m 论文下载链接:https://arxiv.org/abs/2306.11207

更多论文创新点加微信群:Lh1141755859 公众号:CV算法小屋

想搞医疗大模型但是缺少数据的同学看过来:Quilt-1M:病理学的一百万个图文对的评论 (共 条)

分享到微博请遵守国家法律