多模态人类情感识别科研小班
2023-07-26 15:10 作者:bili_93891819972 | 我要投稿
多模态深度学习是一个相对较新的领域,它关注从多模态数据中学习的算法。例如,人类可以同时通过视觉和听觉来识别人或物体,而多模态深度学习关注的是为计算机开发类似的能力,让模型也能同时处理来自不同模态的输入。
跨模态深度学习是一种多模态深度学习的方法,可以使用跨模态深度学习来学习跨越不同模态的关系,比如学习声音和文本之间的关系,图像和文本之间的关系。
多模态深度学习是将多种不同的模态作为输入来训练模型,而跨模态深度学习则是学习跨越不同模态的关系。“多模态”指用于多模态数据的 AI 系统,当狭义地指集成不同模式并将它们一起使用的 AI 系统时,“跨模态”则更为准确。
多模态深度学习应用
多模态深度学习有着广泛的应用,以下是已经可用的应用:
● 自动生成图像的文本描述,为图像自动生成语言描述,例如盲人字幕。
● 搜索与文本匹配的图像,例如“找一张蓝色狗的图片”。
● 文本生成图像,利用文本描述创作图像的生成式艺术系统,例如,创作一张蓝色狗的图片。