【中电新青年·AI前沿技术探索】AI数字人
目前,元宇宙热潮下,AI 数字人也开始涉及众多领域,包含文娱、服务、教育、营销等等。市面上出现的 Al 数字人包括功能型 Al数字人,如虛拟助手、虛拟导游、虛拟客服等;陪伴型 Al 数字人,如虛拟伴侣、虛拟家属等;社会型 Al 数字人,如虛拟主播、虛拟偶像、虛拟教师、虛拟医生、虛拟导购等。

浦发银行的首位银行业数字员工「小浦」

虎牙数字人晚玉

AI数字人主播 *技术解读 该技术可以将语音实时转换成表情blendshape 动画。这样做的原因是在现行的产业中,用BS 去驱动数字形象的动画表情仍是主流,方便动画艺术家对最终动画产出最艺术调整,传输的数据量小,方便动画在不同的数宇形象之间进行传递等等。 基于这些实际生产中的需求,FACEGOOD 对输入和输出数据做了相应的调整,声音数据对应的标签不再是模型动画的点云数据而是模型动画的 blendshape 权重。最终的使用流程如下图1所示:

在上面的流程中,FAGEGOOD主要完成Audio2Face 部分,ASR、TTS 由思必驰智能机器人完成。如果你想用自己的声音,或第三方的,ASR、TTS 可以自行进行替换。当然,FACEGOODAudio2face 部分也可根据自己的喜好进行重新训练,比如你想用自己的声音或其它类型的声音,或者不同于FACEGOOD 使用的模型绑定作为驱动数据,都可以根据下面提到的流程完成自己专属的动画驱动算法模型训练。 那么 Audio2Face 这一步的框架是什么样呢?又如何制作自己的训练数据呢?具体如下图2所示:

常规的神经网络模型训练大致可以分为三个阶段:数据采集制作、数据预处理和数据模型训练。 •第一阶段,数据采集制作。这里主要包含两种数据,分别是声音数据和声音对应的动画数据。声音数据主要是录制中文字母表的发音,以及一些特殊的爆破音,包含尽可能多中发音的文本。而动画数据就是,在maya 中导入录制的声音数据后,根据自己的绑定做出符合模型面部特征的对应发音的动画; •第二阶段,主要是通过 LPC 对声音数据做处理,将声音数据分割成与动画对应的帧数据,及maya 动画帧数据的导出。 •第三阶段就是将处理之后的数据作为神经网络的输入,然后进行训练直到 loss 函数收敛即可。


