欢迎光临散文网 会员登陆 & 注册

用于视频中 3D 人体姿势估计的 Seq2seq 混合时空编码器

2022-07-02 21:15 作者:熊二爱光头强丫  | 我要投稿


如图一顶部所示:左边是每帧的空间相关性,中间位置是S-T相关的交替学习,右边是每个关节有一个不同的运动,每个关节的单独时间相关性;

从左到右随时间变化视频中每帧人物的每个关节发生的变化。

具体地说图一上提出的关节分离去捕获每个关节的时间运动运动信息,将每个二维关节作为一个单独的特征(称为transformer的标记),通过交替时空充分学习时空相关性,并有助于在时间特征中降低关节特征维数,提出了一种与seq2seq的交替设计,可在长序列中灵活的获得较好的序列一致性,减少冗余计算和过度平滑。通过这种方式可充分考虑不同身体关节的时间运动轨迹来预测准确的3D姿势序列。

图一底部:不同方法在Human3.6m数据集上的精度和每秒传输帧数的比较。蓝色和橙色表示输入序列的长度T=81和243。

首先将视频图像序列转换为2D关节点序列,经过线性层后加入到空间位置嵌入向量,再传入到空间transformer块中,先经过Layer Norm归一化处理(在一定程度上降低梯度消失的问题),然后在加入到空间注意力层,再和传入空间transformer之前的做一次求和并再次做一次归一化,传入到MLP再做一次求和得到的输出加入时间位置向量再放入transformer块,经过关节分离、归一化和时间注意力归一化、MLP网络完成对关节分类得到的输出再次回到空间transformer块中以此作l次循环,两个块都有残差网络,经过l次循环后,做一个Regression Head得到一个3D位姿序列;

用于视频中 3D 人体姿势估计的 Seq2seq 混合时空编码器的评论 (共 条)

分享到微博请遵守国家法律