还没体验ChatGPT,来试试这个MiniGPT-4吧

不知不觉,距 GPT-4 首次公开问世,已经过去一个月了。在这段时间,有不少人拿到了 GPT-4 API 权限,开通了 ChatGPT Plus,提前体验了 GPT-4 的能力。这些人无一例外,都被 GPT-4 强大的逻辑分析、统筹规划能力深深折服。无论是论文创作、编写代码、还是数据分析,GPT-4 都给出了令人惊艳的表现。不过,大家可别忘了,GPT-4 作为一个多模态大语言模型,它不仅能生成文字内容,还能理解图像输入内容,让用户直接与图片进行对话。一个月前,OpenAI 向外界演示了 GPT-4 如何通过手绘草图,直接生成网站,让当时不少围观群众看的目瞪口呆。



在研究中,他们发现 MiniGPT-4 具有许多类似于 GPT-4 的能力,如详细的图像描述生成、从手写草稿创建网站等。不仅如此,他们还在研究中还收获了意想不到的惊喜,除了能实现上述功能之外,MiniGPT-4 还能根据图像创作故事和诗歌,为图像中显示的问题提供解决方案,教用户如何根据食物照片做饭等。下面给大家看几个示例。拍一张菜品图片,让 AI 自动帮你生成菜谱:

让 AI 描述图像内容:

通过商品图,直接生成广告文案:

根据实验结果表明,GPT-4 这些先进的能力,理论上可以归因于它使用了更先进的大语言模型。也就是说,未来在图像、声音、视频等领域,基于这些大语言模型所造出来的应用,其实际效果都不会太差。
这个项目证实了大语言模型在图像领域的可行性,接下来应该会有不少开发者入场,将 GPT-4 的能力进一步往音频、视频等领域延伸,进而让我们得以看到更多有趣、令人惊艳的 AI 应用。