视频动捕技术新突破！网易互娱AI Lab获CVPR首届人物交互重建赛冠军

近日，在国际计算机视觉与模式识别会议（CVPR 2023）上，首届人物交互重建大赛（The First Rhobin Challenge at CVPR 2023）公布了比赛结果，网易互娱AI Lab打败了来自全球的75支参赛队伍，在单目人体重建赛道获得了第一名的优异成绩。网易互娱AI Lab已经将类似相关技术方案应用于自研的AIxPose视觉动捕工具链中，并帮助多个游戏工作室处理了上千分钟的动画资源。

据悉，CVPR 2023人物交互重建大赛由德国马克斯·普朗克计算机科学研究所主办，大赛主要关注从人物与物体近距离交互的单目RGB图像中重建三维人体和物体，一共分为三个赛道，分别是：人体重建、物体姿态估计和人体-物体联合重建，最终考量的是重建的精度和效果。单目人体重建技术一直是计算机视觉领域的重要课题之一，本次比赛的难度也是堪比“地狱”级别，不仅汇集了来自全球的顶尖学者参赛，其中包括中国科技大学、首尔国立大学、NIP3D等人工智能研究领域的国内外顶尖院校以及企业，竞争十分激烈；而且此次比赛提供的BEHAVE数据集包含真实环境中人与物体的交互，存在大量的物体（如桌椅等）遮挡人体的情况，因此如何利用时序信息恢复人体的合理形态，也是考验技术效果的一大难题。

为了解决上述问题，网易互娱AI lab创新性地使用了一种可以从单目图像中得到准确的三维人体姿态和外形的多阶段框架，相比其他参赛队伍，这种方案在重建人体后的四肢朝向与真值之间的角度误差可以减少10%以上，可显著提升重建后的人体关键点精度和准确度。整个人体重建流程可以分为三个部分：

网络预测阶段：团队训练了一个以ViTPose-Huge为主干的神经网络，从图像中预测二维人体关键点和初始的人体模型参数（即SMPL模型的姿态和外形参数）。为了获得更好的泛化能力，该模型在3DPW和EFT等大规模数据集上进行了预训练，并在BEHAVE数据集上进行了微调以适应特定任务。
优化修正阶段：团队利用迭代优化修正前一阶段的初始参数估计，并采用了一系列策略以进一步提升精度。首先，通过重投影的方式监督原图中的二维关键点而非裁剪后的图像有助于减小相机透视效应带来的误差。其次，为了确保序列中人体外形的一致性，团队还对同一外形人体对应的图像序列同时优化外形参数。此外，他们还额外训练了一个神经网络预测足部和地面的接触，通过接触约束联合优化人体模型参数和地平面，有效提升了精度。
模型集成阶段：团队使用了不同的人体关键点集作为监督信息，并通过插值的方式融合多个结果。实验证明，这种融合可以取得比单个最优子模型更好的结果。

单目图像和获取的三维人体姿态对比

目前动捕技术在影视、游戏等多个领域都已很常见，除了光学或者惯性动捕，市面上还出现了许多轻量级的AI视频动捕方案。然而，视频动捕对于需要生成的角色动作素材要求较高，普遍要求人体动作清晰、正视摄像头，否则重建效果会大打折扣甚至出现错误。而网易互娱AI Lab的根据本次大赛所使用的技术方案自研的AIxPose多目视频动捕工具，则可以更好的解决上述问题。近年来，各大企业都在推出自己品牌的虚拟人形象，但虚拟角色需要海量的内容支撑，而高品质的内容制作周期长、成本高、门槛高。借助AIxPose视频动捕工具，用户仅需提供一段简单的人物动作视频，即可在短短几分钟内获得人体的动作数据，相比传统动作动画制作流程能节省80%的制作时间和成本，用更低成本、高效率的方式来打造精品内容。

网易互娱AI lab成立于2017年，一直致力于游戏行业的AI落地场景研究，并且在AIGC内容产出方面，实验室还拥有一系列完整工具，例如可以实现面部实时动捕的面捕工具、语音合成面部动画工具、语音驱动角色动作、扫描面部生成3D模型等。未来，实验室将继续积极探索和推动AI技术在各个领域的应用和探索。