使用图像描述模型为任意图片生成描述语句
一个名叫xmodaler的项目集成了若干个图像描述方法,在该项目中可以调用现有的图像描述模型进行描述,但本人没有详细研究过,所以在这里只提供一个可能的方向:
研究了一段时间名为DLCT的项目的代码,下面介绍下使用该项目进行图像描述的方法,项目地址:
在使用该项目前,需要区域特征、网格特征、对齐图等共计五条数据,其中对齐图在项目的aligns目录下,简单阅读就可以看懂,其他信息在之前的两篇专栏中已经给出了提取方法(虽然项目中预期使用的是目标检测器网格特征,但使用CLIP网格特征也无伤大雅)。
当取得了必须的数据后,执行下面的代码即可:
命令行参数如下: