欢迎光临散文网 会员登陆 & 注册

393350【哗哩哗哩】世纪主管的决策_工作_计划_技术指导_哔哩哔哩

2023-10-19 22:25 作者:bili_61050943357  | 我要投稿

GPT-4V来做目标检测?网友实测:还没有准备好。


虽然检测到的类别没问题,但大多数边界框都错放了。

没关系,有人会出手!

那个抢跑GPT-4看图能力几个月的迷你GPT-4升级啦——MiniGPT-v2

△(左边为GPT-4V生成,右边为MiniGPT-v2生成)

而且只是一句简单指令:[grounding] describe this image in detail就实现的结果。

不仅如此,还轻松处理各类视觉任务。

圈出一个物体,提示词前面加个 [identify] 可让模型直接识别出来物体的名字。


当然也可以什么都不加,直接问~


MiniGPT-v2由来自MiniGPT-4的原班人马(KAUST沙特阿卜杜拉国王科技大学)以及Meta的五位研究员共同开发。


上次MiniGPT-4刚出来就引发巨大关注,一时间服务器被挤爆,如今GItHub项目已超22000+星。


此番升级,已经有网友开始用上了~


多视觉任务的通用界面

大模型作为各文本应用的通用界面,大家已经司空见惯了。受此灵感,研究团队想要建立一个可用于多种视觉任务的统一界面,比如图像描述、视觉问题解答等。


「如何在单一模型的条件下,使用简单多模态指令来高效完成各类任务?」成为团队需要解决的难题。

简单来说,MiniGPT-v2由三个部分组成:视觉主干、线性层和大型语言模型。


393350【哗哩哗哩】世纪主管的决策_工作_计划_技术指导_哔哩哔哩的评论 (共 条)

分享到微博请遵守国家法律