欢迎光临散文网 会员登陆 & 注册

Qwen-VL-Chat:阿里云发布开源大规模视觉语言模型

2023-08-26 01:27 作者:AI日日新  | 我要投稿

可在线运行的notebook链接:在kaggle网站搜索

Qwen-VL-Chat


首先安装依赖包:

接着加载模型:(注意我这里开启了bf16,起到了量化模型的作用,因此推理效果会比源模型差,若电脑性能较好可以关闭bf16)

然后我们即可将图像和指令词传递给模型推理:

不仅如此,该模型还可以检测到图像中的物体位置,并返回相应的图像供我们参考:


当然,该模型是多模态模型,将文本和图像关联起来。若设置多种组合可能会起到意想不到的效果,大家可以进行尝试

Qwen-VL-Chat:阿里云发布开源大规模视觉语言模型的评论 (共 条)

分享到微博请遵守国家法律