欢迎光临散文网 会员登陆 & 注册

异常检测迎来GPT时刻,用大型视觉语言模型检测工业异常

2023-08-31 12:10 作者:听取蛙蛙声一片  | 我要投稿

本文探索利用大型视觉语言模型来解决工业异常检测问题,并提出AnomalyGPT: 第一个基于 LVLM 的异常检测新方法,实现了最先进的性能

MiniGPT-4和LLaVA等大型视觉语言模型 (LVLM) 已经展示了理解图像的能力,并在各种视觉任务中取得了出色的性能。 尽管由于大量的训练数据集它们识别常见对象的能力很强,但它们缺乏特定的领域知识,并且对对象内的局部细节的理解较弱,这阻碍了它们在工业异常检测 (IAD)任务中的有效性。 另一方面,大多数现有的IAD方法仅提供异常分数,并且需要手动设置闯值来区分正常样本和异常样本,这限制了其实际实施。 在本文中,我们探索利用 LVLM 来解决 IAD 问题,并提出 AnomalyGPT,一种基于 LVLM 的新型 IAD 方法。 我们通过模拟异常图像并为每个图像生成相应的文本描述来生成训练数据。我们还采用图像解码器来提供细粒度语义,并设计一个提示学习器来使用提示嵌入来微调 LVLM。 我们的 AnomalyGPT 消除了手动闯值调整的需要,从而直接评估异常的存在和位置。 此外,AnomalyGPT 支持多轮对话,并展现出令人印象深刻的小样本上下文学习能力。 仅通过一次正常拍摄,AnomalyGPT 在 MVTec-AD 数据集上就实现了最先进的性能,准确率为 86.1%,图像级 AUC 为 94.1%,像素级 AUC 为 95.3%。

代码:https://github.com/CASIA-IVA-Lab/AnomalyGPT

论文:https://arxiv.org/abs/2308.15366

异常检测迎来GPT时刻,用大型视觉语言模型检测工业异常的评论 (共 条)

分享到微博请遵守国家法律