欢迎光临散文网 会员登陆 & 注册

【AI Live】南洋理工MMLab团队 | 三维人体的感知、生成与驱动

2022-11-18 19:03 作者:深蓝学院  | 我要投稿

本期分享主题:

当前,元宇宙产业处于高速发展期,技术体系逐渐成熟,应用场景愈发丰富,其中以数字人为中心的应用和内容最为火热。高拟真的数字人内容需要克服三个层次的技术瓶颈,即如何在虚拟现实环境中感知、生成并驱动三维人体。本次直播将由来自南洋理工大学MMLab@NTU的刘子纬老师领衔五位博士生,来为我们分享实验室近期最新的关于三维人体方面的工作。

分享时间:

2022年11月20日 15:00

点此链接免费报名:https://www.shenlanxueyuan.com/launch/B01116/detail

主题介绍

1、GTA-Human、HuMMan人体数据集

主讲人:蔡中昂,南洋理工大学博士生。

分享内容:GTA-Human是一个大规模游戏生成的参数化人体数据集(2万段视频及140万帧SMPL参数标签)。利用游戏引擎中丰富的素材,GTA-Human在人物、动作、地点、相机姿态、人与环境的交互、光照、气候等维度具有多样性。HuMMan是一个大规模的多模态4D人体数据集,包含1000个人物,40万段视频,6000万帧数据。HuMMan包含多模态数据和标注、移动端数据、完备且无歧义的动作集,支持动作识别、姿态估计、人体重建等多种任务。本场分享将从数据背景、工具链和数据集、任务实验优势等多个维度详细讲解。

2、Relighting4D: 3D人体的逆向渲染与重打光

主讲人:陈昭熹,南洋理工大学博士生。

分享内容:动态人体的重打光是一个极具挑战的任务,为电影游戏工业中的逼真渲染的关键技术,现有技术手段往往需要专业人员和昂贵的特种设备对目标人体进行精细扫描与建模。为了降低这一技术的成本,并拓展其使用场景,本工作旨在使用神经渲染技术,通过物理渲染器从动态人体视频中恢复出可用于重打光的人体几何及反射率信息,实现自由视角和姿态下的人体重打光。

3、AvatarCLIP: 文本驱动的3D人体生成

主讲人:洪方舟,南洋理工大学博士生。

分享内容:三维虚拟人在数字时代扮演了重要的角色。但是创建一个三维虚拟人的过程不可避免地费时费力。为了简化这个过程以使更多普通用户能够方便创建三维虚拟人,我们提出了AvatarCLIP,一个零次学习的文本驱动的三维虚拟人生成与动作生成。我们方法的核心在于使用强大的视觉语言预训练模型CLIP来监督生成过程。我们将整个生成过程分为大致体型生成,具体外观生成,以及动作序列的生成。实验验证了AvatarCLIP可以接受非常大范围的文本输入,无需任何数据即可达到较好的结果。

4、MotionDiffuse: 文本驱动的人体动作生成

主讲人:张明远,南洋理工大学博士生。

主讲内容:文本驱动的动作生成技术,以文本作为输入形式,允许用户生成自己的人体动作序列。由于其交互简单的特点,该领域近些年受到了广泛的关注和研究。然而现有的方法往往难以生成多样的、可控制的动作序列。为了解决这些问题, MotionDiffuse 第一次在该领域引入了扩散模型。通过设计高效的 Transformer 结构,以及被赋予的时空编辑能力,MotionDiffuse 大幅提升了动作生成技术的能力边界,并在多个数据集上达到了目前最高的精度水平。

5、Bailando: 人体舞蹈动作生成

主讲人:李思尧,新加坡南洋理工大学 S-Lab一年级博士生。

主讲内容:舞蹈生成是一个具有挑战性的任务,它的难点在于既要保证生成的动作在空间上达到舞姿的高标准,又要在时间上与音乐节拍吻合。在本文中我们提出了一种有两个阶段的编舞框架Bailando。在第一阶段,我们利用量化自编码器(VQ-VAE)将符合空间标准的舞姿编码和量化到一个名为“舞蹈记忆”的编码本中;在第二阶段,利用生成预训练Transformer(GPT)将对“舞蹈记忆”中的舞姿进行编排,将输入的音乐转换为视觉上令人满意的舞蹈。我们进一步引入评论家网络给生成的舞蹈打分,引导 GPT 编排出与音乐节奏更加吻合的动作。实验结果表明,Bailando可以在标准编舞数据集上取得SOTA的效果。

免费报名地址:https://www.shenlanxueyuan.com/launch/B01116/detail


【AI Live】南洋理工MMLab团队 | 三维人体的感知、生成与驱动的评论 (共 条)

分享到微博请遵守国家法律