欢迎光临散文网 会员登陆 & 注册

【技术分享】AI数字人实时互动直播技术:数字人口型驱动(算法篇)

2023-05-18 19:46 作者:Siyuejiang  | 我要投稿

数字人口型驱动

FACS根据面部肌肉群对面部动作编码

51个通道


音频特征:MFCC、基于深度学习的表征方法etc,选择deepspeech,音频-文本工具/音频抽取特征,音频转成音频图


面部口型驱动:音频特征提取——切分音频特征(阶梯过滤器)——缩放后到vit——加一层MLP——加一层position embedding

用到19个通道

阶梯过滤器;attention机制(关注靠后音频);loss function





【技术分享】AI数字人实时互动直播技术:数字人口型驱动(算法篇)的评论 (共 条)

分享到微博请遵守国家法律