当前位置: 首页 -> 学院新闻 -> 正文

祝贺!软件学院研究成果首次发表于计算机图形学国际顶会ACM SIGGRAPH

2026-05-15  点击:[]

软件学院研究成果首次发表于

计算机图形学国际顶会ACM SIGGRAPH

视频驱动3D动画新突破R-DMesh

——首个解决“位姿错配”难题的视频驱动

Mesh Animation框架

61F50

会议简介:ACM SIGGRAPH由美国计算机学会(ACM)主办,是计算机图形学领域最具影响力、历史最悠久的国际顶级学术会议,自1974年创办以来已经走过半个世纪,被公认为该领域的“奥斯卡”盛会。会议涵盖渲染、几何处理、动画、物理仿真、虚拟现实等核心方向,引领着全球图形学与数字内容创作的技术前沿。SIGGRAPH 2026将于2026年7月19-23日在美国洛杉矶举办。本届会议共收到有效投稿1688篇,最终录用334篇,录用率约19.8%。本文在激烈竞争中成功入选,亦是软件学院首篇SIGGRAPH论文,标志着学院在4D内容生成领域取得了重要突破。

摘要:在3D内容创作领域,如何使用一段参考视频精准驱动任意静态 mesh 生成高保真的动态序列,是一项极具应用价值但又充满挑战的任务。现有方法普遍忽视了一个关键难题——位姿错配 (Pose Misalignment):用户提供的静态 mesh 初始姿态往往与参考视频首帧不一致,直接驱动会导致严重的几何畸变甚至动画失败。本文提出 R-DMesh,首个专门针对该难题的视频驱动 mesh animation 统一框架。通过创新的 jump offset 解耦建模与 Triflow Attention 机制,R-DMesh 能够在动画开始前自动“校正”mesh 位姿,进而生成高质量、与视频紧密对齐的4D动态 mesh。同时,本文构建了包含50万+段高质量动态序列的 Video-RDMesh 数据集。代码和预训练权重已全部开源。

论文题目:

《R-DMesh: Video-Guided 3D Animation via Rectified Dynamic Mesh Flow》

作者:

Zijie Wu, Lixin Xu, Puhua Jiang, Sicong Liu, Chunchao Guo, Xiang Bai

发表会议:SIGGRAPH 2026

项目主页:https://r-dmesh.github.io

代码仓库:

https://github.com/Tencent-Hunyuan/R-DMesh

论文链接:

https://arxiv.org/abs/2605.13838

一、背景

1.1 任务设置

本文聚焦于视频驱动的3D动画 (Video-Guided 3D Animation) 任务。该任务旨在给定一段参考视频与一个静态 mesh 作为条件,自动生成一段在时空上与视频高度对齐、几何结构保持完好、动作自然流畅的动态 mesh 序列。相比于文本驱动,视频作为驱动信号提供了更确定性、更丰富的时空运动信息,使用户能够对动态资产进行直观且精确的控制,在影视、游戏、虚拟人、元宇宙等内容创作领域具有巨大的应用前景。

1.2 相关方法

现有的相关工作大致可分为三类:整体4D生成方案(如 4D-fy[1]、Consistent4D[2] 等)通常依赖 SDS 或多视角视频合成,存在时空一致性差、单场景优化耗时长等问题;Mesh 动画方案中,基于骨骼/参数化模板(如 SMPL[3])的方法泛化能力受限,无法驱动通用物体;近期的文本驱动前馈方案 AnimateAnyMesh[4,5] 虽实现了快速驱动,但文本信号本身存在歧义性,难以进行精细的运动控制;同期的 Puppeteer 等视频驱动方案则依赖光流等 2D 先验,在径向运动与复杂场景下效果有限,且均未解决关键的位姿错配问题

二、本文方案

2.1 研究动机

60C30

图2 视频驱动网格动画中的位姿错配问题:在视频驱动的3D动画场景中,视频首帧与输入3D模型之间常存在显著差异。未经位姿校正直接迁移动作会导致严重形变或静态输出;R-DMesh 在动画开始前先进行位姿校正,为后续高保真驱动奠定基础

视频驱动 3D 动画在实际落地中长期被一个核心痛点困扰——位姿错配 (Pose Misalignment)。如图2所示,用户提供的静态 mesh 通常处于 T-pose 或其他任意初始姿态,而参考视频的首帧却可能展示着完全不同的动作(如人物正在行走)。若直接强行让 mesh 跟随参考视频的轨迹,会导致显著的几何扭曲或动画失效。

针对这一关键且被长期忽视的难题,本文提出 R-DMesh 框架。其核心思想在于:将“位姿校正”与“动作生成”两个过程显式解耦。通过学习一个 jump offset (跳跃偏移),网络可以将输入 mesh 的任意初始姿态自动变换至与视频首帧对齐的状态,随后再进行连续的动作生成。此外,本文进一步利用大规模预训练视频扩散模型 (VDM) 中蕴含的丰富时空先验,大幅提升了生成的保真度与效率。

2.2 R-DMesh VAE

37338

图3 R-DMesh VAE 架构](Decomposition → Encoder (Triflow Attention) → Decoder (Triflow Cross-Attention)

R-DMesh VAE 的设计核心主要包含三点:a. 四元解耦表征 b. Jump Offset 建模 c. Triflow Attention 机制。具体如下:

a. 四元解耦表征 (DMesh Decomposition):

R-DMesh VAE 的输入为静态条件 mesh M_cond=(V_cond∈R^(N×3),F∈Z^(M×3))与目标动态序列 D=(V_(1:T)∈R^(T×N×3),F)。本文将其解耦为四个正交分量:面片 F、初始顶点 V_cond、跳跃偏移 ΔJ,以及相对轨迹 T_rel:

858

这种解耦的巧妙之处在于:ΔJ 专门建模"条件 mesh → 视频首帧"的大尺度位姿跳变(即位姿校正),而 T_rel则专注于建模视频序列内部的连续运动。同时配合双中心归一化 (Dual-Center Norm) 策略——条件 mesh 以自身质心归一、目标序列以首帧质心归一,进一步消除了不必要的全局平移。这一设计不仅从根本上解决了位姿错配问题,也大大降低了网络建模难度。

b. Jump Offset 建模:

Jump Offset 是 R-DMesh 能实现位姿校正的关键。它被显式建模为一个独立的概率分量,拥有独立的潜空间表征 x_Δ和独立的重建监督。这样做避免了"大位移跳变"污染连续运动轨迹的表征学习,使得网络能够分别掌握“如何校正位姿”和“如何生成运动”两种本质不同的能力。

c. Triflow Attention 机制:

为了在潜空间中同时处理 V_cond、ΔJ、T_rel 三股信息流,同时保证它们之间的相关性又不引起互相干扰,本文设计了 Triflow Attention 机制。其核心操作是:以几何特征 V ̂_cond^n为 Query、V ̂_cond 为 Key 计算得到一个几何引导的共享 Attention Map,然后同步应用于三股信息流的特征聚合:

Triflow Attention 显式地将运动特征的聚合与几何拓扑对齐,从而将“局部刚性”与“运动协同”等物理先验注入到生成过程,既保证了特征解耦,又显著提升了重建与生成的保真度。

2.3 R-DMesh RF Model

2AC42

图4 R-DMesh RF 架构](R-DMesh VAE Encoder + VDM DiT → Transformer blocks (Cross Attn + Self Attn + FFN) with AdaLN-Zero modulation

在 VAE 将动态 mesh 序列压缩为固定长度的潜空间表征后,本文基于 Rectified Flow 构建了生成模型 R-DMesh RF Model。其设计有两个核心亮点:

1)统一建模 Jump + Trajectory:**将 z_Δ与 z_traj共同视为动态分量 Z_dyn,以 x_cond作为固定的 clean condition,在单一 Rectified Flow 过程中联合建模位姿校正与连续动作生成:

1102

2)利用预训练 VDM 注入时空先验:本文巧妙地将预训练的 Wan2.2-TI2V-5B 视频扩散模型作为特征提取器。通过系统性消融实验发现,第10层 Transformer block 输出的特征既包含丰富的语义信息又保留了良好的时序结构,是最优的条件信号。通过 Cross-Attention 将这些特征注入 4D 生成分支,R-DMesh 成功地将 2D 视频模型的时空先验高效迁移到 4D mesh 领域。

2.4 Video-RDMesh 数据集

为训练上述模型,本文构建了大规模动态 mesh 数据集Video-RDMesh。数据来源于 Objaverse[6,7],经过资产筛选、动画提取、切片、动作幅度过滤、渲染对应视频等一整套严格的数据处理流程,最终得到了513,690段高质量、64帧顶点轨迹序列及其配套参考视频。特别地,Video-RDMesh 在训练时通过“随机帧条件化 (Misalignment Simulation)” 策略,主动模拟真实场景中的位姿错配,为框架的鲁棒性奠定了坚实基础。

三、实验结果

3.1 与其他方法对比

62690

图5 R-DMesh vs SC4D[8], L4GM[9], AnimateAnyMesh[4], Puppeteer[10]

本文与四类 SOTA 方法进行了全面对比:SC4D (视频到4D优化)、L4GM (视频到4D前馈重建)、AnimateAnyMesh (文本驱动前馈) 和 Puppeteer (视频驱动动画)。从定性结果可以看出:SC4D/L4GM 在参考视角看似合理,但新视角下存在严重形变与漂移;AnimateAnyMesh 受限于文本歧义,对罕见类别驱动效果有限;Puppeteer 依赖光流等 2D 先验,无法处理位姿错配问题(图5中前4列清晰展示)。相比之下,R-DMesh 在时空一致性、局部形状保持、与视频对齐度以及位姿校正能力上均明显超越所有对比方法。

定量比较结果如下表所示:

23B7A

R-DMesh 在渲染质量、时序一致性、几何精度等所有指标上均全面领先,同时保持了与最快基线相当的推理效率(~10秒),比优化类方法快出数百倍。

3.2 消融实验

592F7

图6 Jump Decomposition & Triflow Attention 消融实验](w/o Decomp 完全失去位姿校正能力;w/o Tri-Attn 几何保真度下降

消融实验清晰表明:Jump-Decomp 模块是位姿校正能力的决定性因素——去除后生成的初始帧无法体现任何位姿变换,几乎等同于条件 mesh;Triflow Attention 则显著提升了几何保真度;此外 Dual-Norm 与 Decoup-Loss 对最终高质量结果同样不可或缺。对于视频特征提取层,实验表明 Wan2.2-TI2V-5B 的第10层为最优条件源(EncD=0.012),显著优于浅层或深层特征。

3.3 丰富的下游应用

2892B

图7 R-DMesh 姿态重定向应用示例

37C21

图8 R-DMesh 动作重定向应用示例

2F670

图9 R-DMesh 端到端4D生成示例

得益于解耦表征与大规模数据,R-DMesh 展现出强大的下游拓展性:

位姿重定向 (Pose Retargeting):可将合成3D资产或真实世界图像中的任意位姿迁移到目标 mesh,即使面对严重的域差异也能鲁棒应对;

动作重定向 (Motion Retargeting):能将驱动视频中的动作序列零样本迁移到体型、服饰差异很大的新角色;

完整的视频到4D生成:结合 Hunyuan3D 生成首帧静态 mesh,再由 R-DMesh 进行视频驱动,即可从真实世界视频一键生成高质量4D动态资产。

四、结论

本文提出了 R-DMesh,首个系统性解决视频驱动 3D 动画中“位姿错配”难题的统一框架。通过创新的 Jump Offset 解耦建模、Triflow Attention 机制以及VDM 先验注入三大核心设计,R-DMesh 在生成质量、时空一致性、几何保真度与推理效率上均大幅超越现有方法。同时发布的 Video-RDMesh 数据集(50万+段高质量动态序列)为 4D 生成领域提供了坚实的数据基础。R-DMesh 不仅推动了视频驱动3D动画的技术前沿,更为通用4D内容创作提供了一套多功能、可扩展的解决方案


参考文献(节选)

[1] Bahmani S, Skorokhodov I, Rong V, et al. 4d-fy: Text-to-4d generation using hybrid score distillation sampling[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 7996-8006.

[2] Jiang Y, Zhang L, Gao J, et al. Consistent4d: Consistent 360 dynamic object generation from monocular video[C]//International Conference on Learning Representations. 2024, 2024: 51844-51861.

[3] Loper M, Mahmood N, Romero J, et al. SMPL: A skinned multi-person linear model[M]//Seminal Graphics Papers: Pushing the Boundaries, Volume 2. 2023: 851-866.

[4] Wu Z, Yu C, Wang F, et al. Animateanymesh: A feed-forward 4d foundation model for text-driven universal mesh animation[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2025: 13557-13568.

[5] Wu Z, Yu C, Wang F, et al. AnimateAnyMesh++: A Flexible 4D Foundation Model for High-Fidelity Text-Driven Mesh Animation[J]. arXiv preprint arXiv:2604.26917, 2026.

[6] Deitke M, Schwenk D, Salvador J, et al. Objaverse: A universe of annotated 3d objects[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2023: 13142-13153.

[7] Deitke M, Liu R, Wallingford M, et al. Objaverse-xl: A universe of 10m+ 3d objects[J]. Advances in Neural Information Processing Systems, 2023, 36: 35799-35813.

[8] Wu Z, Yu C, Jiang Y, et al. Sc4d: Sparse-controlled video-to-4d generation and motion transfer[C]//European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2024: 361-379.

[9] Ren J, Xie K, Mirzaei A, et al. L4gm: Large 4d gaussian reconstruction model[J]. Advances in Neural Information Processing Systems, 2024, 37: 56828-56858.

[10] Song C, Li X, Yang F, et al. Puppeteer: Rig and animate your 3d models[J]. Advances in Neural Information Processing Systems, 2026, 38: 72152-72184.



下一条:软件学院2026年泰国ODOS夏令营闭幕

地址: 湖北省武汉市洪山区珞喻路1037号 

           华中科技大学东校区恩明楼软件学院1011室

Copyright 2023 华中科技大学软件学院 All Rights Reserved

联系我们:

Email: sse@hust.edu.cn 

电话: 027-87792255

院长信箱:ssedean@hust.edu.cn

书记信箱:sseshuji@hust.edu.cn