元宇宙数字人在沟通场景中的应用（未来预测篇 - 元宇宙数字人的Version 0.1阶段）

2023-02-28 19:42 作者:诚汝 0人读过 | 我要投稿

数字人在沟通场景中的应用

一、行业趋势与数字人关键价值

受经济周期影响，2020年疫情之前，世界范围经济放缓。2020年，疫情使得世界经济负增长3.1%，发达经济体下滑4.5%。疫情对全球实体经济造成巨大冲击，实体经济会在后续几年仍然低迷，网络经济因受地域影响较小从而被波及较小，网络经济会相对更充分的发挥优势。

国内疫情防控到位，对经济影响较小。另一方面，经济增长较上世纪末放缓，贷款利率下行，对创新行业有利好作用。

元宇宙作为新领域的绝对风口，将会得到快速发展。尤其是网络经济中，如能加大供需，提高交易量，会对全国经济造成促进作用。

元宇宙即是创造和拉升供需的一个加速器，人们可以在元宇宙中发挥自己的想象力，创造更多的价值，提升供需交易。

随着我国十四五规划，提出坚持稳中求进工作总基调，以推动高质量发展为主题。今年以来，我国多地出台利好元宇宙发展的政策。

近几个月来

8月6日，北京发布数字人创新政策

8月13日，科技部、教育部、工业和信息化部、交通运输部、农业农村部、国家卫生健康部等六部门引发《关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见》

8月23日，北京副中心元宇宙行动计划发布

8月27日，河南开工建全球先进水平元宇宙产业园，占地386亩

9月2日，湖南打造“元宇宙生态引领区”

10月8日，上海市城市数字化转型领导小组引发的《上海市制造业数字化转型实施方案》提出，将加快元宇宙创新应用

10月19日，浙江宁波：国内首座“数字孪生跨海大桥”建成

10月29日，上海市征集元宇宙重大场景“揭榜挂帅”

11月1日，潍坊：举全市之力打造元宇宙技术创新与产业之都

11月3日，武汉市正式发布元宇宙产业方案

11月5日，广东：横琴粤澳深度合作区发布支持元宇宙产业发展十方面税收措施的通告

人工智能作为元宇宙中的一环，是元宇宙发展的重要引擎，在元宇宙发展过程中起到牵引和推动双重作用。

数字人正是元宇宙的入场券，无论元宇宙今后如何发展，在元宇宙中都需要有“人”。由人工智能驱动的数字人，正是国内众多参与者角逐的阵地。

目前国内市场中，数字人被广泛从虚拟IP、虚拟主播、数字员工、数字主播、数字教练等产品，应用于金融、科技、政务等行业。例如：虚拟IP/员工数字人AYAYI，银行双录/服务数字员工小浦。

从政策层面、社会趋势、行业应用等角度，数字人都是今后互联网发展的重点。

那么，数字人对社会进步的真正价值在于什么呢？

答案是，数字人所应用的领域，其真正有价值的地方在于：在与它沟通交流的同时看它表演。

二、行业大玩家

那么，国内都有哪些企业在参与数字人赛道，而这些企业又在布局什么呢？

首先，需要分清楚AI驱动数字人和非AI驱动数字人，在不同厂商、不同行业的应用。

AI驱动数字人，不论以从语音TTS驱动3DMM三维人脸重建或通过warp生成的2D数字人，还是以语音TTS驱动3D网格中BlandShape参数的3D数字人，驱动的源头都是TTS和CV技术、图形学技术的结合，也就是语音AI能力和视觉AI能力、3D图形的结合。这类数字人的厂商一般都是AI相关企业为主，例如：某社交游戏大厂，某网购大厂，某ALLinAI大厂等等。

非AI驱动数字人，一般来讲，是传统的动捕设备驱动的3D数字人，其中有光学动捕、惯性动捕。而使用这些设备的领域，几乎都在影视、游戏行业。例如：某漂亮国加州某地的众多影视及特效公司，某社交游戏大厂，以及游戏大厂和一众游戏小厂。

AI驱动的数字人，实际是为了极大减少驱动成本，能够应对toC消费级应用的办法。所以从人才、公司基因等角度，本身有AI技术的企业无疑是有极大优势的。那么这些AI厂商都在为数字人布局什么应用领域呢？

请看下表：

1，直播领域

一般传统应用是以真人出现在镜头中与用户互动。而在数字人应用中，会有两种方式：以传统动捕装备驱动的3D数字人直播，以及以CV视觉捕捉驱动的3D数字人直播，应用于直播互动、直播电商卖场。而以CV视觉捕捉驱动，往往仅需要一台千元级别的单目摄像机，相比几万元甚至百万元的动捕装备，完全就是亲民级别。

至于为什么不用2D数字人直播，答案只有一种，目前这种技术对人物表情动作的驱动几乎为零，大多数情况只能拥有一张Pokerface。

2，数字人会议

这种业务，实际上需要有自身的资源禀赋，例如这个企业本身就有xx会议APP，而需要数字人出现的情况目前有3种：

①在元宇宙会议中，用户以数字人形态，类似MMORPG游戏场景中玩家/NPC出现；

②在xx会议APP中，参会者形象变为3D形象；

③在xx会议APP中，由一位数字人作为主持人。

这三种情况，我们来逐一分析：

①看起来对体验提升没什么大用，还会让参会者体会一把3D网络游戏内，因为人数太多而造成的卡顿

②和视频美颜没有太多本质区别

③对于主持人来说，职责是对会议进程的把控，上下环节的串场，以及突发情况的处理，而数字人对接的语言后台，不论是对话FAQ，还是多轮对话，以AI行业现有的技术能力，是很难做到的，除非是真人通过动捕装备或者CV动捕驱动这个3D主持人，那么这样的话，问题的本质又回到了第②点

至于使用2D数字人的话，用户如果选择露脸，2D数字人复刻用户本身没有意义，而在用户露脸时候露个Pokerface也很难和一张头像照片有太多本质区别

3，IP

对于虚拟IP数字人，不论是早些年的复活邓丽君，还是最近周董演唱会的数字人，再到初音未来、洛天依这种知名虚拟IP，往往需要大量的IP运营工作，比如：演唱会、走穴、唱片签售会。而AI企业和3D企业，往往会在驱动和形象上做足工夫，而对IP运营有着明显的内功不足。

4，影视

影视数字人，一般也都是和影视娱乐行业直接相关，所以一般影视和游戏行业的企业会更直接的可以应用到实际业务中。对于CG级别的数字人，在影视和游戏公司，从驱动角度，一般都采用光学动捕+惯性动捕的方式，成本高昂。在加入AI能力后，可以对成本做到一定程度的下降。

5，主播

虚拟主播，和直播中的3D数字人是近似的概念，但除了3D主播以外，AI驱动的2D数字人主播，目前被应用于媒体新闻播报、宣传等场景。属于目前行业内比较成熟的技术和应用场景。相对来说，场景垂直，技术挑战有难度但边界清晰。

6，员工

这里抛开非AI驱动（即真人驱动）不讲。不论2D虚拟员工还是3D虚拟员工，当这个虚拟员工以视频形态存在时，都会以AI作为虚拟员工与用户之间的互动纽带，比如：语音识别用户说话，将识别后的文本反馈到对话机器人，在知识图谱支持下，找到或生成对应答案的文本，然后通过文本转语音生成音频，驱动虚拟员工口型，或是简单动作。实现人与“人”的实时互动交流。

解决现实场景中，真人人力不足，用户问题大量重复，且仅通过文字表达而造成的界面友好度、拟人度不够的情况。例如：银行开户的双录场景、政企办事大厅或线上业务办理的客服场景、以及更细分下沉的APP功能新手引导等场景。与虚拟主播类似，属于场景垂直，技术挑战有难度但边界清晰的场景。

而当这个虚拟员工不以视频形态存在，那么它一定是3D技术作为原生应用形态，类似客户端游戏的形式展现在用户面前（不论是APP端还是WEB端），那么它的应用体积一定是巨大的（至少百M，甚至G级别），且随着用户交互的同时，会在不同的环节临时下载数据包。牺牲了这么多，换来的是可以给这个虚拟员工实时换装，实时互动（这里互动是指触屏的方式），然而对于真实的业务办理场景，这些改进往往是不需要的或者没有实际意义的。

7，游戏NPC

比较典型得代表是MMORPG游戏中的NPC。

早些年的NPC，一般作为剧情辅助或任务引导，会被设定固定的对话内容。同时由于游戏性本身，玩家并不关注NPC说话时，口型是否正确。只有当游戏进入到CG动画环节，才会在游戏制作时，使用昂贵的光学动捕设备，对游戏剧情内的CG人物进行面部、动作捕捉。

近年来，AI驱动的NPC，逐渐被用于游戏内。这里会有2个结果：1，仍然是固定的对话内容，只是口型正确了，但对玩家来说无关痛痒；2，CG人物的制作成本降低。

8，陪练

目前场景的数字人陪练，一般是在客服等标准话术对练方面，通过3D数字人老师进行串场、2D数字人客户或模拟场景的真人录像与被训练者进行对话训练。

此场景是目前行业里比较新兴的一个领域，但是其在结合数字人真正价值（在与TA沟通交流的同时看TA表演）方面，有待提高。如果能更多的发挥人与数字人之间沟通，并通过数字人表演，达到“身临其境”，则才是真正意义上的模拟实战练习。

以上这些，即是目前行业内的应用概况。

如上所述，如果能够通过AI驱动数字人，在降低数字人表达、表演的成本情况下，发挥用户与数字人沟通交流的同时也可以看数字人表演的优势，才是数字人真正的价值。

然而，事情并没有看起来那么简单。

AI技术与3D技术的融合是技术与领域跨界的。

在AI界熟悉的东西，在3D界可能是陌生的；而在3D界默认的、约定俗成的，在AI界可能是很难理解和解决的。

举2个具体实践的例子：

1，AI与3D在一段时间内就像平行世界

AI同学说ASR/TTS，3D的同学很可能都不知道是啥；3D同学说骨骼、蒙皮，AI同学一样蒙圈。AI人工智能和3D图形学在一段时间内就像两个平行世界，很难融合，也造成了一段时间内，AI公司做2D数字人，不做3D，例如某冰；3D公司做重建和真人驱动，没有AI基因很难搞定AI驱动。

2，模型与穿模

（1）当AI同学说模型的时候，可能指的是使用 tensorflow、pytorch 或者 paddlepaddle 写一段 python 代码来组建一个神经网络模型。例如：

（图片来源于网络）

而3D同学说的模型，可能是她，

也可能，是它

（图片来源于网络）

（2）穿模的概念在3D世界里，因为人物间，物体间或人物和物体间因碰撞导致的互相穿透叠加的现象。而AI里是没有这种事情的！这是3D物理引擎擅长做的事情。

三、一切来源自于现实

从上述表格的分析中，我们看到，在陪练市场的一个细分领域中，如果能够结合AI技术，保证话术练习质量，降低数字人表演的成本，用于用户身临其境实战练习沟通话术，无疑是极好的。

具体的情况是这样的：

1，对话

传统的客服、销售等沟通场景的情景：标准话术背诵、资深员工或导师1V1辅导、无培训直接实战或培训后实战。

无疑，没有培训，对业绩的收益是最差的。

背诵标准话术后实战，由于启动的是人类的工作记忆，也基本起不到什么效果。

1V1辅导，效果较好，但因为学员在面对导师时尴尬或紧张，往往练习达不到非常好的效果，并且导师的时间不能用来做业务，是一种资源的浪费。

如果用数字人导师及虚拟客户，对客服或销售人员进行标准话术培训，会极大程度解决以上的问题，尤其是学员在面对虚拟客户时，还会因为恰到好处的心理压力、紧张度，以及人类天然对视觉画面的迁移能力，将剧本记忆更深。在实际业务中，人类也会将已经熟记的基础话术，通过自身的思维进行调整，发挥出更好的效果。

而标准话术的检测，正是AI技术的天然优势。

2，表演

在模拟实战中，表演是不可或缺的。

仅仅通过文字信息的交互传达，也仅仅会训练人类左脑的短期工作记忆，无法触发人类右脑长期记忆。所以在陪练系统中，应用数字人进行沟通表达，配合简单合理的非语言表达，将是提升训练效果的法宝。

这里着重说一点，对于销售、客服等需要通过沟通完成业务目标，甚至通过当面沟通完成业务目标的职业，扎实的沟通能力是职业基本功。提升了沟通能力，在实际工作中，等于提升了业绩，会永远领先竞争对手一步。

另一方面，从现实情况中，我们也找到了很多关于沟通话术、语言技巧方面的例子。

例如在视频平台，越来越多的up主在做着知识付费，也越来越多的有传授沟通、销售等技巧的内容被生产出来。

以下是一个视频例子：

（图片截取自网络）

截图里的作者，通过自己饰演多个角色的方式，诠释“沟通”和“察言观色”技巧。

另一个例子：

（图片截取自网络）

截图中的视频作者，通过动画软件制作，耗费大量精力，通过制作一堆“演员”来表达语言的艺术。

同时，一些知名人士也从其他角度给出了答案：《刻意练习》一书中也曾提到，没有人可以不经过高强度和广泛的刻意练习，便培养出杰出的能力。

对于企业来说，行业及企业自身的个性化的话术、在面对关键客户前足够且真实有效的销售话术练习，尤其是效保证员工在沟通技巧方面的“刻意练习”，将是企业收入线的有效保障。

所以，面向刻意练习而生的沟通话术数字人陪练，将会解决3个问题：标准沟通话术的验证、更长久记忆的表演、对练时的成本。

四、AI结合的数字人技术在练习沟通的场景中的应用

AI结合的数字人技术，在陪练这个可以模拟学员与客户真实沟通的练习场景应用，在元宇宙初级阶段，正在被更多的企业接受。从传递沟通技巧角度出发，我们也找到了解决上述3个问题的办法：

1，沟通话术方面：

结合了人工智能自然语言处理技术的陪练系统，在很大程度上解决了沟通话术的标准型、可塑性检验。

2、3，在临场感等表演、表现力，以及制作成本方面

可从如下4个方面提升效果：

（1）人物建模：把传统主要靠人工完成（工期为数周）的通过AI来完成。行业痛点：

1）高精模型成本很高（价格20-100w/个甚至更高）；

2）高精模型低延时驱动需要本地高性能服务器，无法实现互联网式多终端加载、驱动；

3）重建需要大型相机阵列（可能是几百台高清相机）并与重建算法结合，成本较高。

而AI自动建模可以对现实中存在人物进行复刻实现高精建模。通过少量高清相机即可重建目标人物的几何、法线、高光、漫反等数据。

（2）AI人脸微表情驱动：可以利用深度学习学习面部肌肉运动，从而控制虚拟人面部活动。行业痛点：

1）手工制作动画或面捕动画均是对人脸表情直接建模，而非对面部肌肉建模，有违和感，且制作成本非常高

2）无法从语言信息得到驱动微表情的相关输入信号

而AI驱动人脸，可以通过CV视觉动捕技术，完全复刻人脸表情，并对虚拟人进行实时控制。比如，在TTS对应的文本中有喜悦的情感倾向，那么在对应声音的表达时，可以同时驱动3D人物做出例如微笑、抬眉等微表情动作。

（3）AI肢体动作驱动：通过CV视觉动捕重建肢体动作，行业痛点：

1）手工制作动画或硬件动捕动画均是对人体直接建模，但制作成本高，设备昂贵

2）通过语音驱动的AI驱动动作方式，相比随机动作提升效果有限，从语义映射的表情和动作不稳定，仍然需要经过规则纠错；

而CV视觉动捕，可以实时通过CV视觉技术捕捉真人动作，并对虚拟人进行实时控制，可以做到一用户通过CV技术、单目摄像头，驱动不同数字人的效果。

（4）情感语音TTS：可部分提升数字人的效果（除了看之外，听是最重要的），行业痛点：

1）目前行业普遍缺情感TTS；

2）情感TTS需要先有语义理解，语义理解与上下文有关，精度不够

目前AI行业内暂无很好的解决方案，但这个问题却不是不能解决的，完全可以使用不同的TTS声音，甚至使用真人人声加变声器的方式。

以上几个AI结合数字人的应用方式，在话术陪练场景中的应用，可以大量减少制作成本，并可以保证练习剧本的最终效果。

我们来看一个例子：

通过TTS驱动3D数字人说话，配置3D数字人表情、动作，实现了某贷款业务的催收话术练习场景。

成本方面，除去人物和场景本身的制作可以供不同用户共用外，3分钟练习片段仅需3分钟文字录入即可完成。并在学员话术校验、以及人物临场感表达方面，做出了诠释。

如此，数字人便在沟通场景中得到了应用。

五、写在最后

最近二十大刚刚结束，报告里提到了好几个关键概念，比如：中国式现代化、高质量发展、科教兴国等。最关键的词汇是“中国式现代化”，报告中提到了五点：人口规模巨大的现代化、全体人民共同富裕的现代化、物质文明和精神文明相协调的现代化、人与自然和谐共生的现代化、以及走和平发展道路的现代化。其中物质和精神文明相协调，承载了人口巨大与共同富裕的物质文明现代化，以及精神文明承载的和谐共生与和平发展现代化。

物质文明与精神文明的协调发展，必将会是我国发展的关键。而如果没有精神文明的发展，人类文明更不会进步，在历史长河中，就不会有孟母三迁、鹬蚌相争这些典故，更不会有三国演义，西游记这样的名著。

在未来，随着AI技术的发展提升，类似于陪练场景的AI结合的数字人应用、数字人与真人互动对话、数字人故事表演，必将会越来越多得为人类造福，也会越来越深刻得将沟通技能提升、故事内容表达等精神文明的具体表现发展于百姓之中。

最终，精神文明作为物质文明的更高追求，文艺的复兴，精神的复兴，将带领我们真正的屹立在世界民族之林的巅峰。

标签：

元宇宙数字人在沟通场景中的应用（未来预测篇 - 元宇宙数字人的Version 0.1阶段）

元宇宙数字人在沟通场景中的应用（未来预测篇 - 元宇宙数字人的Version 0.1阶段）的评论 (共条)

你可能也喜欢这些文章

最新发布的文章

元宇宙数字人在沟通场景中的应用（未来预测篇 - 元宇宙数字人的Version 0.1阶段）

本文作者的其他文章

元宇宙数字人在沟通场景中的应用（未来预测篇 - 元宇宙数字人的Version 0.1阶段）的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

元宇宙数字人在沟通场景中的应用（未来预测篇 - 元宇宙数字人的Version 0.1阶段）的评论 (共条)