欢迎光临散文网 会员登陆 & 注册

Look and Talk 只需一个眼神,谷歌助手便能为您服务

2023-02-27 08:00 作者:小牛翻译NiuTrans  | 我要投稿

本文首发于网站 机器翻译学堂

转载事宜请后台询问哦

译者|刘浩伟

单位|东北大学自然语言处理实验室

引言

在人们的日常交流中,我们不会每次说话时都叫出对方的名字。取而代之,我们依靠的是情境信号,通常来说只需要进行眼神的接触便可以发起一场对话。

谷歌助手目前在超过95个国家被使用,可支持超过29种语言,每月帮助7亿多人在助理设备上完成工作。随着虚拟助理成为我们日常生活中不可或缺的一部分,开发更自然地启动对话的方法已成趋势。当前谷歌助手发起对话的方式为唤醒词(如:“hey google”或“hello google”),用户通过说出唤醒词来激活服务,那么是否能够只通过一个眼神来告诉谷歌助手,我们需要服务呢?

本文介绍了谷歌在2022年I/O大会上发布的Look and Talk,在拥有该功能的设备5英尺范围内,用户可以通过简单地查看屏幕来开始与助手进行交互。这是创造与谷歌助手支持的家用设备进行自然直观的交互过程中的一项重大发展。Look and Talk是第一个拥有多模式的设备助手功能,该功能可以同时分析音频,视频和文本,以确定用户何时与谷歌助手进行交谈。其算法使用了八个机器学习模型,可以区分用户是有意互动还是无意瞥过,以便准确地确定用户与助手互动的意图。

Google智能助理依靠许多信号来确定用户何时与其交谈。右侧是一个信号列表,其中指示器根据用户与设备的接近程度和注视方向显示每个信号何时触发。

建模挑战

Look and Talk始于为学术研究而开发的模型。但是,大规模部署需要解决此功能特有的现实挑战。它必须:

  1. 支持一系列人口统计特征(例如,年龄、肤色)。

  2. 适应现实世界的环境多样性,包括具有挑战性的光学(例如,背光,阴影模式)和声学条件(例如,混合音,背景噪声)。

  3. 处理不寻常的镜头视角,因为智能显示器通常用作台面设备来观察用户,这与研究数据集中通常用于训练模型的正面人脸图像不同。

  4. 实时运行,以确保在处理设备上的视频时及时响应。

该算法的演变涉及从领域适应和个性化到特定领域数据集开发,现场测试和反馈以及整体算法的重复调整等方法的实验。

技术概述

一个Look and Talk交互分为三个阶段。在第一阶段,助手使用视觉信号来检测用户是否表现出与之交流的意图,然后“唤醒”来听取他们的发言。第二阶段的目的是使用视觉和听觉信号进一步验证和理解用户的意图。Look and Talk会考虑第一个和第二个处理阶段的所有信号,以确定交互是否可能用于助手。这两个阶段是“Look”和“Talk”的核心功能,将在下面进行讨论。查询实现的第三阶段是典型的查询流,超出了本博客的范围。

第一阶段:与助手互助

Look and Talk的第一阶段旨在评估注册用户是否有意与助手互动。Look and Talk使用人脸检测来识别用户的状态,使用检测到的人脸框大小来推断距离,然后使用现有的人脸匹配系统来确定他们是否是Look and Talk的注册用户。

对于设备范围内的注册用户,自定义的眼睛注视模型可以确定用户是否正在查看设备。该模型使用多塔卷积神经网络架构从图像帧中估计注视角度和相机注视置信度,一个塔处理整个面部,另一个塔处理眼睛周围的区块。为了确保最终预测与虚假的单个预测以及不自主的眨眼和扫视有一定弹性空间,研究员将平滑函数应用于基于单个帧的预测,以消除虚假的单个预测。

眼睛注视预测和后处理概述

在通知用户系统已准备好进行交互之前,会强制执行更严格的注意要求,以尽量减少错误触发,例如,当路过的用户短暂的瞥了一眼设备时,一旦用户看着设备开始说话,便会放宽对注意力的要求,让用户可以自然地转移视线。

此处理阶段所需的最后一个信号会检查“人脸匹配”用户是否为当前发言人。这是由多模态有源说话人检测模型提供的,该模型将用户面部的视频和包含语音的音频作为输入,并预测他们是否在说话。许多增强技术有助于提高家庭领域的预测质量,将终端功能性能提高10%以上。最终部署的模型是量化的硬件加速TFLite模型,它使用5帧上下文进行视觉输入,使用0.5秒进行音频输入。

有源说话人检测模型概述:双塔试听模型为人脸提供“说话”概率预测

第二阶段:助手开始监听

在第二阶段,系统开始监听用户查询的内容(仍然完全在本地设备上),以进一步评估交互是否适用于处理其他信号的助理。首先,Look and Talk使用语音匹配来进一步确保说话人已注册并匹配早期的面部匹配信号。然后,它在设备上运行最先进的自动语音识别模型来转录语音。

下一个关键处理步骤是意图理解算法,该算法预测用户的话语是否旨在需要助理进行交互服务。该算法分为两个部分:1)分析音频中的非词汇信息(即音调,速度,犹豫不决),以确定话语是否听起来像对助手寻求服务, 2)确定文本分析模型的结果是助理请求。它还使用上下文视觉信号来确定与助手相互作用的可能性。

语义筛选,用于确定用户话语是否为针对助手的查询

最后,当意向理解模型确定用户话语可能是针对助手时,Look and Talk将进入实现阶段,与服务器通信以获取对用户意向和查询文本的响应。

性能、个性化和用户体验

每个支持Look and Talk的模型都单独进行了评估和改进,然后在端到端系统中进行测试。Look and Talk需要在各种各样的环境条件下运行,因此需要引入个性化参数来提高算法的鲁棒性。通过使用在用户基于唤醒词的交互期间获得的信号,系统将参数个性化到各个用户,以对广义全局模型进行改进,这种个性化也完全在本地设备上运行。

没有预定义的唤醒词作为用户意图的代理,延迟是Look and Talk的一个重大问题。通常来说,直到用户开始说话后才会出现足够强的交互信号,这可能会带来数百毫秒的延迟,并且用于意图理解的现有模型也会增加延迟,因为它们需要完整而不是部分的查询。为了弥补这一问题,Look and Talk完全放弃了将音频流式地传输到服务器,转录和意图理解是在本地设备上进行的。而意向理解模型可以针对部分话语工作,最终的端到端系统延迟与当前基于唤醒词的系统相当。

系统的UI体验基于用户研究,以提供具有高度可学习性的均衡视觉反馈。如下图所示。

左图:用户与look and talk交互的空间交互图。右图:用户界面(UI)体验。

结论

Look and Talk的发布是使用户与谷歌助手尽可能自然地互动的重要一步。虽然这是谷歌助手发展历程中的一个关键里程碑,但谷歌希望这仅仅将是其交互范式众多改进中的第一个,这些改进将继续有效地重新构建谷歌智能助理的体验,最终让用户获得帮助变得自然和容易,从而节省时间以便专注于更重要的事情。


原文链接:

https://ai.googleblog.com/2022/07/look-and-talk-natural-conversations.html


hi,这里是小牛翻译~

想要看到更多我们的文章,可以关注下

机器翻译学堂(公号或网站)

笔芯~

往期精彩文章


Look and Talk 只需一个眼神,谷歌助手便能为您服务的评论 (共 条)

分享到微博请遵守国家法律