Qwen-VL-Chat:阿里云发布开源大规模视觉语言模型
可在线运行的notebook链接:在kaggle网站搜索
Qwen-VL-Chat
首先安装依赖包:
接着加载模型:(注意我这里开启了bf16,起到了量化模型的作用,因此推理效果会比源模型差,若电脑性能较好可以关闭bf16)
然后我们即可将图像和指令词传递给模型推理:
不仅如此,该模型还可以检测到图像中的物体位置,并返回相应的图像供我们参考:
当然,该模型是多模态模型,将文本和图像关联起来。若设置多种组合可能会起到意想不到的效果,大家可以进行尝试