欢迎光临散文网 会员登陆 & 注册

Unity | CYAN.AI:2D视频实时生成3D动作的自研AI模型

2023-08-08 17:44 作者:cyanpuppets  | 我要投稿

CyanPuppets(青色木偶)是一个专注于开发 2D 视频生成 3D 动作算法的团队。在 Unity 技术开放日北京站黑马训练营专场中,广州青色木偶信息科技有限公司 CEO 李宗兴带来了团队已经上线的 CYAN.AI 平台,分享了利用算法模型技术实现 2D 视频实时生成 3D 动作的实践以及产品落地,并就 AIGC 生成 3D avatar 骨骼的技术点及与 Unity 的结合接受了深度访谈。本文对干货内容整理如下:


AI 赋能的超低成本动捕方案

CyanPuppets 从 2019 年开始就专注 2D 生成 3D 领域的算法架构研发。最初的缘起是因为卡梅隆导演执导的电影阿凡达 AVATAR,那时候三个合伙人就想,有没有办法让每个人都能生产 CG 动画电影,每个人都能成为自己的导演?

带着这个愿景,我们 2016 年 - 2018 年间研究了很多国外的开源框架。英国、美国、加拿大有众多成名已久的同赛道算法团队,如卡耐基梅隆大学的 OpenPose,Google 的 mediapipe、Move ai、deepmotion 等,这些前置的开源算法在这个赛道上一直是过去国内团队无法逾越的大山。但这些算法也都存在瓶颈,如精度不够,输入一个 2D 视频,导出 3D 数据只能实现基础的滑步,没有能满足动捕需求的开源算法。所以我们决定从零开始自研算法框架,打造了基于卷积神经网络和深度神经网络算法的自研 AI 模型 Cyan.ai

2020 年底,我们突破了生成 3D 数据的精度瓶颈,可以将一段输入的 2D 视频解析成非常高精度的 3D 数据,并且具备面部表情、手指和肢体数据。下方视频展示的是我们今年五月份正式交付的算法版本,让视觉捕捉生成的动作真正实现了高精度的 3D 化,可以在 3D 空间自由走动、前后左右转圈。

相比市面上的惯性动捕和光学动捕,我们的方案具备低成本、高精度、无穿戴三个主要特点,不需要搭建复杂的光学头,不需要穿戴任何动捕设备,只要打开软件、站在摄像头面前就可以得到这样高精度的数据,成本只有传统光捕棚的千分之一。这种低成本的动作捕捉和生成方案非常适合应用在游戏制作、传统的影视动画和科研机构中。

技术原理

Cyan.ai 的原理是非常简单的,下方的逻辑图是我们的完整技术实现路线。摄像头输入一段实时的 2D 视频放到我们的算法模型里,参数量不大,只有 10 亿参数,跟 ChatGPT 上千亿参数的模型相比还是有差距的,但我们只做这一个环节。启动初始会获取三帧数据,提取三个关键帧,对 2D 照片模拟出完整的 3D 向量空间。结合动力学和生物力学,模型会通过 COCO 数据集和自研的数据集从 2D 视频流中解析出追踪人体的 208 个关键点数据,识别 3D 空间中的人体姿态。这 208 个点主要包含面部 140 个关键点、双手 42 个关键点和肢体 30 个关键点,高效完成无穿戴无标记的高精度捕捉。最终我们会基于这些识别点构建输出一段非常高精度的全新骨骼系统数据,再通过自编写的一套骨骼重定向与映射算法,将动作数据传输到 Unity avatar 骨骼,只消 0.1 秒的延迟就可以实现从视频到渲染端的全流程接入。Unity 开发者几乎不用对模型做任何改动,就可以通过我们的软件实时驱动。不管背后的动捕演员的身体形态如何,我们都会对骨骼比例进行全新的映射;即使切换动捕演员,我们实时输出的骨骼数据都一样精准。

为了实现这套方案,我们团队主要解决了两大技术难点:一是如何将 Cyan.ai 的骨骼完美的映射到 Unity avatar 骨骼中,因为两者的实现语言并非一致,需要做复杂的数学算法完成两者的衔接;二是研发端的难点,在于模型数据集的训练与算法架构的升级迭代。
虽然这个方案比卡耐基梅隆大学做的 OpenPose 精度要强很多,但是对算力的要求并不高。因为我们也是英伟达初创加速计划的成员,CUDA 在底层运算能力上提供了优化支持。目前我们可以通过 3060 的显卡实现 FPS30 以上的数据,只需要一台千元的笔记本就能使用这套方案。

总结而言,CyanPupppets 相比于同赛道的算法框架具备非常明显的综合优势,主要为以下几点:

① 高精度、高稳定的捕捉效果和动作数据导出,能在完整的三维空间自由移动并非一个平面上;

② 无需复杂的标定流程,算法自动完成标定;

③ 同时具备面部,手指,肢体三个模块的动作捕捉;

④ 极致的实时性,仅需 0.1 秒的延迟具备实时互动能力;

⑤ 通用性的模型标准,数字资产无需二次绑定或开发;

⑥ 低性能要求,消费级显卡NVIDIA 20系以上显卡即可通用。

与 Unity 集成

如何在 Unity 里使用我们的方案呢?目前我们提供两个方法与 Unity 引擎结合。一个是以插件的形式,用户仅需将 CyanPuppets 安装到 Unity 插件根目录,在采集程序端输入电脑 MAC 地址即可实时获取由 2D 视频实时解析的高精度 3D 动作数据,可实时可离线录制,非常简单。另一个方案是我们会提供 Unity 的示例工程,开发者可以迁移到自己的游戏工程里。

它可以帮 Unity 开发者解决游戏开发中的角色动画生成问题,开发者可以实时调整每个角色的动作文件,以近乎零成本获取自己想要的动作内容。这样,每个人都可以使用 Unity 快速制作一部低成本的 3DCG 电影,成为自己 CG 作品的导演。另一方面,VR 方向的 Unity 开发者可以基于这套方案完成交互类的产品开发,让每个用户通过 CyanPuppets 进入到 Unity 搭建的 3D 虚拟世界中互动。除目前已上架的动捕方案外,我们团队最看好的应用场景是基于云原生世界的实时交互能力,让每个用户都具备独一无二的数字身份,随时穿梭于虚拟空间,打破地域与空间的限制。这也是我们团队创立的初衷,完成虚拟世界和现实世界的协作,为未来可能出现的虚拟城市、虚拟空间提供更好体验更低成本的全身交互方案,做进入虚拟世界的基础设施,为全球用户搭建穿越虚拟与现实的桥梁。

我们的客户中有十多个是 Steam 独立游戏开发者,他们在自己的卧室里部署我们的方案,在床头、窗边录制游戏动作,再放到 3D 游戏里做战斗场面。我们方案的价值就体现在这里,为一些经费不足的客户提供超越千万级光学棚效果的工具,这是我们一直在做的事情。

AI+3D 引擎:建构虚拟世界的桥梁

AIGC 是最受关注的人工智能领域之一,当前大部分 AIGC 模型围绕文字生成文字,文字生成图片,图片生成图片、图片生成视频的 2D 领域,CyanPuppets 处于 2D 视频生成 3D 动画的关键环节,落地于 AI 赋能的动作捕捉方案。一方面,AI 算法让动作捕捉和生成成本更低、精度更高,另一方面,实时视频驱动也在某种程度上成为了比文字指令更有效的人机交互方式。AIGC 是一场以数据为驱动的、以提升生产力为目的的技术变革,部分具备重复性和技巧性的工作可以通过 AI 赋能,极大提升生产效率。未来的 3D 内容开发领域需要更多创意,AI 算法将能处理传统游戏制作过程中的角色生成、骨骼绑定、动作驱动等功能性模块,引导传统模式下的 3D 开发者向内容创作者转变。团队非常看好 AI+3D 引擎的实现方向。我们认为,3D 引擎是图形算法的表达方式,也是 3D 介质的直接参与者。结合实时视频输入的人机交互形式,以及 2D 生成 3D 的多模态 AI 模型,3D 引擎可以发挥强大的图形能力,成为 AI 生成 3D 内容的实时载体,也为人类进入虚拟世界构建一个普适性的 3D 环境,真正实现人与 3D avatar 无缝衔接的虚实同步。

感谢黑马计划给我们这样的机会,让我们直接面向 Unity 开发者和众多嘉宾。希望通过黑马计划的合作,我们未来能在 Unity 创作者生态中成为一个优质的 AI 工具。

现场交流

高喆人:

(百家合商务总监,主要从事大型主机游戏研发以及主机游戏发行等方面工作,有多款已发售AAA级主机游戏经验)

我想问一下,大家都用你们的方案,动捕设备是不是就没人买了?因为动捕设备的成本可能要几万,贵的要上百万。李宗兴:这还是挺微妙的,国外有一些光学棚巨头,非常傲慢,定价政策让中国企业非常难受。也正是这样的全球光学棚巨头,给我们开了 4 次跨洋视频会议,希望我们的算法能适配到工业摄像头里,应用到生命医学方向。比如让自闭儿童走到房间里做行为分析,让学生到房间里踢足球、做康复运动,再导出高精度数据检测。传统动捕服是很难做这些运动类型的数据采集的。所以其实我们相信未来会取代光学棚。高喆人:我这边也有虚拟女团这样的业务,现在用的方案也是用动捕的。很多人没办法接触这个还是因为动捕成本太高了,你们打算之后 toC 推广这个业务吗?李宗兴:目前我们的合作客户还是 toB 的,因为我们第一个商用的方案是工作室版。客户也包含了大厂的虚拟女团、虚拟偶像、虚拟主播等,都有采用我们的方案。杨慧:

(声网生态运营中心负责人。曾任TalkingData CEO助理,TDU(腾云大学)执行校长,全联房地产商会数字社区分会副秘书长,中关村大数据产业联盟数字生态行研中心首席研究员,DT大数据产业创新研究院 (DTiii)AI研究中心主任,中关村大数据产业联盟人才中心副理事,“大数据AI产业创新与投资百人会(BDAI100)”成员)

我们对于这方面一直有关注,春江水暖鸭先知,通过您在这个领域的铺设,您个人的感觉哪些场景对将来技术的发展和壁垒的突破是有比较大的反馈作用的?

李宗兴:还是基于未来以人为本的 3D 场景视觉方案的落地。我们方案是实时的,但也面临很多问题,比如有些个人游戏开发者甚至连自己的客厅都没有,但是部署方案有最基础的场地需求。基于 Unity 生态做开发的时候,我们目前发现售后主要围绕一个方面,就是对光线的要求。摄像头得先看到,算法才能解析出高精度的数据。我们卖出的十多个个人开发者里面,房间的灯光都是非常昏暗的环境,效果就不理想;像清华大学、北京大学有非常宽阔的教室场景和灯光,就可以快速得到数据。

所以,如果我们的方案要面向 C 端,确实在未来整体使用操作方面要降低门槛。对于产品来说,能用和不能用是一个分水岭。产品没到达能用的时候,即使是开源、免费的也只能做 Demo;如果产品大多数人都能用,就迎来了它的市场

杨慧:如果想让技术更快更好地普及,会发现实际落地的难度不在于技术本身的实现,而是像刚刚您说的,比如使用的门槛、环境的不可控因素等。我的一个建议是,选择面向大 C 有代表性的场景进行更深层次的探索,找到产品中间的最佳实践或者最佳参数配比,可能可以在目前这个阶段更有效地推广你这套解决方案。

李宗兴:我们是有考虑这一块的,未来我们可能会推出按月订阅版本,每个月可能几百块钱,如果国外算法威胁到我们,我们可能就采用免费的策略。

暗哨:

(游民星空副总裁,十五年游戏行业经验,科技互联网整合营销专家,曾服务数十国内外知名品牌的线上下营销)

我跟宗兴共事过两三年,这个项目其实我们没有深入研讨过,所以今天有一些问题想交流一下。现在产品定价 9899 元/年,这是独立游戏工作室满足自己素材制作需求能够接受的程度。无论从动画还是动捕都有明显的成本优势,在很多应用场景里的速度也很快。现在咱们有针对这些群体做更加技术方面的培训或者相应的服务吗?

李宗兴:面向个人创作我们想了比较折中的方案,我们在全国 20 个城市挑选了一批我们认为信得过的合作伙伴,在他们公司提供现场体验和培训的场地。当然价格这一块也确实是在想一个更低价的版本,按月订阅,这是我们未来的考虑。因为我们公司整体研发成本还是非常高的,虽然已经融了资,但是钱很快就烧完了,我们还是处在需要卖产品续命的阶段。目前我们的客户还是倾向于大厂、清北高校等有充分经费的,我们就优先跟他们落地一些项目。

暗哨:现在这个产品很多独立开发者能用得起,但是团队很小的情况下,对 Unity 技术的深入程度可能没有那么高。欧洲和北美地区的厂商有很多 QA 团队,他们会以技术支持的方式跟大量独立开发者合作,为产品推广提供比较好的节点。

李宗兴:我可以了解一下北美厂商是如何在个人创作者这一块推广的。Unity 黑马计划给到我们这样的舞台,我们也想借这个机会直面个人创作者的需求,希望和在场的个人创作者深入探讨,为大家提供真正的价值。

原文来源unity开发者平台:https://mp.weixin.qq.com/s/RdiqFaX-0eW5-zMxGV0UfA

Unity | CYAN.AI:2D视频实时生成3D动作的自研AI模型的评论 (共 条)

分享到微博请遵守国家法律