欢迎光临散文网会员登陆 & 注册

【技术分享】AI数字人实时互动直播技术：数字人口型驱动（算法篇）

2023-05-18 19:46 作者:Siyuejiang 0人读过 | 我要投稿

数字人口型驱动

FACS根据面部肌肉群对面部动作编码

51个通道

音频特征：MFCC、基于深度学习的表征方法etc，选择deepspeech，音频-文本工具/音频抽取特征，音频转成音频图

面部口型驱动：音频特征提取——切分音频特征（阶梯过滤器）——缩放后到vit——加一层MLP——加一层position embedding

用到19个通道

阶梯过滤器；attention机制（关注靠后音频）；loss function

标签：

【技术分享】AI数字人实时互动直播技术：数字人口型驱动（算法篇）的评论 (共条)