欢迎光临散文网 会员登陆 & 注册

多模态学习

2020-07-13 10:39 作者:非人鬼SeanXu  | 我要投稿

多模态学习技术是新的AI技术发展趋势之一。“多模态技术逐渐也在视频网站、电商物流、自动驾驶等领域得到广泛。像爱奇艺的“只看TA”功能,优酷视频正在使用的视频帧、人脸帧的图向量检索,都离不开多模态识别技术。那么在这些新应用场景中的技术现状如何?又有哪些问题呢?

“多模态学习”,正式认识下
1) 多模态学习即试图通过机器学习的方法,实现对多源模态信息进行分析和理解。当前主要热门的研究方向自然是对图像、视频、音频、语义之间的多模态学习。
2) 模态间映射是研究如何将某一特定模态数据中的信息映射至另一模态。例如,给定一幅图像,通过机器学习得到这副图像的描述,或者给定一段文字,生成一幅匹配的图像。类似于“看图说话”和“以题作画”。
3) 多模态对齐,主要研究如何识别不同模态之间的部件、元素的对应关系,以促进学习到的多模态表示更加精确,例如将电影画面、口型、语音、字幕的自动对齐。

多模态学习,正在丰富哪些应用场景?
1) 在语音交互上,“多模态深度语义理解”技术正在为其带来更深度的应用场景。
Ø 比如,其中一个应用场景是智能汽车的数字座舱,正在从原本单一的车载语音识别,实现融合视觉、语音、车内外场景图像的多模态识别的转变。
2) 在以机器视觉为主的应用中,多模态学习技术也带来新的应用可能。
Ø 以电商平台购物为例,用户的一大痛点就是看到一些“心水”的好物或者同款,但不知道名字,通过拍照识别和检索,将为用户提供最便捷的推荐服务。
3) 在传感器智能上,多模态识别技术可以应用到大量的物联网设备场景中。
Ø 比如在智能空调中,加入语音交互、视觉识别指令,结合传感器判断屋内温度和湿度,可以根据屋内人数、位置等因素来实现更精准的控温方案。

技术尚在中途,未来仍需努力
1) 不过,我们仍然需要指出的是,尽管多模态学习技术已经有诸多的应用场景,但其技术实现仍然有诸多不足,也会有一些场景仍然是“伪多模态”的技术应用状态,导致一些场景体验仍然不能“尽如人意”。
2) 多模态技术距离真正的人类级别的智能还有质的差别。多模态技术仍处在“襁褓状态”,我们应该留给它足够长的成长时间,等待美好发生。


多模态学习的评论 (共 条)

分享到微博请遵守国家法律