学院新闻

当前位置：首页 -> 学院新闻 -> 正文

祝贺！软件学院研究成果首次发表于计算机图形学国际顶会ACM SIGGRAPH

2026-05-15 点击：[]

软件学院研究成果首次发表于

计算机图形学国际顶会ACM SIGGRAPH：

视频驱动3D动画新突破R-DMesh

——首个解决“位姿错配”难题的视频驱动

Mesh Animation框架

61F50

会议简介：ACM SIGGRAPH由美国计算机学会（ACM）主办，是计算机图形学领域最具影响力、历史最悠久的国际顶级学术会议，自1974年创办以来已经走过半个世纪，被公认为该领域的“奥斯卡”盛会。会议涵盖渲染、几何处理、动画、物理仿真、虚拟现实等核心方向，引领着全球图形学与数字内容创作的技术前沿。SIGGRAPH 2026将于2026年7月19-23日在美国洛杉矶举办。本届会议共收到有效投稿1688篇，最终录用334篇，录用率约19.8%。本文在激烈竞争中成功入选，亦是软件学院首篇SIGGRAPH论文，标志着学院在4D内容生成领域取得了重要突破。

摘要：在3D内容创作领域，如何使用一段参考视频精准驱动任意静态 mesh 生成高保真的动态序列，是一项极具应用价值但又充满挑战的任务。现有方法普遍忽视了一个关键难题——位姿错配 (Pose Misalignment)：用户提供的静态 mesh 初始姿态往往与参考视频首帧不一致，直接驱动会导致严重的几何畸变甚至动画失败。本文提出 R-DMesh，首个专门针对该难题的视频驱动 mesh animation 统一框架。通过创新的 jump offset 解耦建模与 Triflow Attention 机制，R-DMesh 能够在动画开始前自动“校正”mesh 位姿，进而生成高质量、与视频紧密对齐的4D动态 mesh。同时，本文构建了包含50万+段高质量动态序列的 Video-RDMesh 数据集。代码和预训练权重已全部开源。

论文题目：

《R-DMesh: Video-Guided 3D Animation via Rectified Dynamic Mesh Flow》

作者：

Zijie Wu, Lixin Xu, Puhua Jiang, Sicong Liu, Chunchao Guo, Xiang Bai

发表会议：SIGGRAPH 2026

项目主页：https://r-dmesh.github.io

代码仓库：

https://github.com/Tencent-Hunyuan/R-DMesh

论文链接：

https://arxiv.org/abs/2605.13838

一、背景

1.1 任务设置

本文聚焦于视频驱动的3D动画 (Video-Guided 3D Animation) 任务。该任务旨在给定一段参考视频与一个静态 mesh 作为条件，自动生成一段在时空上与视频高度对齐、几何结构保持完好、动作自然流畅的动态 mesh 序列。相比于文本驱动，视频作为驱动信号提供了更确定性、更丰富的时空运动信息，使用户能够对动态资产进行直观且精确的控制，在影视、游戏、虚拟人、元宇宙等内容创作领域具有巨大的应用前景。

1.2 相关方法

现有的相关工作大致可分为三类：整体4D生成方案（如 4D-fy[1]、Consistent4D[2] 等）通常依赖 SDS 或多视角视频合成，存在时空一致性差、单场景优化耗时长等问题；Mesh 动画方案中，基于骨骼/参数化模板（如 SMPL[3]）的方法泛化能力受限，无法驱动通用物体；近期的文本驱动前馈方案 AnimateAnyMesh[4,5] 虽实现了快速驱动，但文本信号本身存在歧义性，难以进行精细的运动控制；同期的 Puppeteer 等视频驱动方案则依赖光流等 2D 先验，在径向运动与复杂场景下效果有限，且均未解决关键的位姿错配问题。

二、本文方案

2.1 研究动机

60C30

图2 视频驱动网格动画中的位姿错配问题：在视频驱动的3D动画场景中，视频首帧与输入3D模型之间常存在显著差异。未经位姿校正直接迁移动作会导致严重形变或静态输出；R-DMesh 在动画开始前先进行位姿校正，为后续高保真驱动奠定基础

视频驱动 3D 动画在实际落地中长期被一个核心痛点困扰——位姿错配 (Pose Misalignment)。如图2所示，用户提供的静态 mesh 通常处于 T-pose 或其他任意初始姿态，而参考视频的首帧却可能展示着完全不同的动作（如人物正在行走）。若直接强行让 mesh 跟随参考视频的轨迹，会导致显著的几何扭曲或动画失效。

针对这一关键且被长期忽视的难题，本文提出 R-DMesh 框架。其核心思想在于：将“位姿校正”与“动作生成”两个过程显式解耦。通过学习一个 jump offset (跳跃偏移)，网络可以将输入 mesh 的任意初始姿态自动变换至与视频首帧对齐的状态，随后再进行连续的动作生成。此外，本文进一步利用大规模预训练视频扩散模型 (VDM) 中蕴含的丰富时空先验，大幅提升了生成的保真度与效率。

2.2 R-DMesh VAE

37338

图3 R-DMesh VAE 架构](Decomposition → Encoder (Triflow Attention) → Decoder (Triflow Cross-Attention)

R-DMesh VAE 的设计核心主要包含三点：a. 四元解耦表征 b. Jump Offset 建模 c. Triflow Attention 机制。具体如下：

a. 四元解耦表征 (DMesh Decomposition)：

R-DMesh VAE 的输入为静态条件 mesh M_cond=(V_cond∈R^(N×3),F∈Z^(M×3))与目标动态序列 D=(V_(1:T)∈R^(T×N×3),F)。本文将其解耦为四个正交分量：面片 F、初始顶点 V_cond、跳跃偏移 ΔJ，以及相对轨迹 T_rel：

858

这种解耦的巧妙之处在于：ΔJ 专门建模"条件 mesh → 视频首帧"的大尺度位姿跳变（即位姿校正），而 T_rel则专注于建模视频序列内部的连续运动。同时配合双中心归一化 (Dual-Center Norm) 策略——条件 mesh 以自身质心归一、目标序列以首帧质心归一，进一步消除了不必要的全局平移。这一设计不仅从根本上解决了位姿错配问题，也大大降低了网络建模难度。

b. Jump Offset 建模：

Jump Offset 是 R-DMesh 能实现位姿校正的关键。它被显式建模为一个独立的概率分量，拥有独立的潜空间表征 x_Δ和独立的重建监督。这样做避免了"大位移跳变"污染连续运动轨迹的表征学习，使得网络能够分别掌握“如何校正位姿”和“如何生成运动”两种本质不同的能力。

c. Triflow Attention 机制：

为了在潜空间中同时处理 V_cond、ΔJ、T_rel 三股信息流，同时保证它们之间的相关性又不引起互相干扰，本文设计了 Triflow Attention 机制。其核心操作是：以几何特征 V ̂_cond^n为 Query、V ̂_cond 为 Key 计算得到一个几何引导的共享 Attention Map，然后同步应用于三股信息流的特征聚合：

Triflow Attention 显式地将运动特征的聚合与几何拓扑对齐，从而将“局部刚性”与“运动协同”等物理先验注入到生成过程，既保证了特征解耦，又显著提升了重建与生成的保真度。

2.3 R-DMesh RF Model

2AC42

图4 R-DMesh RF 架构](R-DMesh VAE Encoder + VDM DiT → Transformer blocks (Cross Attn + Self Attn + FFN) with AdaLN-Zero modulation

在 VAE 将动态 mesh 序列压缩为固定长度的潜空间表征后，本文基于 Rectified Flow 构建了生成模型 R-DMesh RF Model。其设计有两个核心亮点：

1）统一建模 Jump + Trajectory：**将 z_Δ与 z_traj共同视为动态分量 Z_dyn，以 x_cond作为固定的 clean condition，在单一 Rectified Flow 过程中联合建模位姿校正与连续动作生成：

1102

2）利用预训练 VDM 注入时空先验：本文巧妙地将预训练的 Wan2.2-TI2V-5B 视频扩散模型作为特征提取器。通过系统性消融实验发现，第10层 Transformer block 输出的特征既包含丰富的语义信息又保留了良好的时序结构，是最优的条件信号。通过 Cross-Attention 将这些特征注入 4D 生成分支，R-DMesh 成功地将 2D 视频模型的时空先验高效迁移到 4D mesh 领域。

2.4 Video-RDMesh 数据集

为训练上述模型，本文构建了大规模动态 mesh 数据集Video-RDMesh。数据来源于 Objaverse[6,7]，经过资产筛选、动画提取、切片、动作幅度过滤、渲染对应视频等一整套严格的数据处理流程，最终得到了513,690段高质量、64帧顶点轨迹序列及其配套参考视频。特别地，Video-RDMesh 在训练时通过“随机帧条件化 (Misalignment Simulation)” 策略，主动模拟真实场景中的位姿错配，为框架的鲁棒性奠定了坚实基础。

三、实验结果

3.1 与其他方法对比

62690

图5 R-DMesh vs SC4D[8], L4GM[9], AnimateAnyMesh[4], Puppeteer[10]

本文与四类 SOTA 方法进行了全面对比：SC4D (视频到4D优化)、L4GM (视频到4D前馈重建)、AnimateAnyMesh (文本驱动前馈) 和 Puppeteer (视频驱动动画)。从定性结果可以看出：SC4D/L4GM 在参考视角看似合理，但新视角下存在严重形变与漂移；AnimateAnyMesh 受限于文本歧义，对罕见类别驱动效果有限；Puppeteer 依赖光流等 2D 先验，无法处理位姿错配问题（图5中前4列清晰展示）。相比之下，R-DMesh 在时空一致性、局部形状保持、与视频对齐度以及位姿校正能力上均明显超越所有对比方法。

定量比较结果如下表所示：

23B7A

R-DMesh 在渲染质量、时序一致性、几何精度等所有指标上均全面领先，同时保持了与最快基线相当的推理效率（~10秒），比优化类方法快出数百倍。

3.2 消融实验

592F7

图6 Jump Decomposition & Triflow Attention 消融实验](w/o Decomp 完全失去位姿校正能力；w/o Tri-Attn 几何保真度下降

消融实验清晰表明：Jump-Decomp 模块是位姿校正能力的决定性因素——去除后生成的初始帧无法体现任何位姿变换，几乎等同于条件 mesh；Triflow Attention 则显著提升了几何保真度；此外 Dual-Norm 与 Decoup-Loss 对最终高质量结果同样不可或缺。对于视频特征提取层，实验表明 Wan2.2-TI2V-5B 的第10层为最优条件源（EncD=0.012），显著优于浅层或深层特征。

3.3 丰富的下游应用

2892B

图7 R-DMesh 姿态重定向应用示例

37C21

图8 R-DMesh 动作重定向应用示例

2F670

图9 R-DMesh 端到端4D生成示例

得益于解耦表征与大规模数据，R-DMesh 展现出强大的下游拓展性：

位姿重定向 (Pose Retargeting)：可将合成3D资产或真实世界图像中的任意位姿迁移到目标 mesh，即使面对严重的域差异也能鲁棒应对；

动作重定向 (Motion Retargeting)：能将驱动视频中的动作序列零样本迁移到体型、服饰差异很大的新角色；

完整的视频到4D生成：结合 Hunyuan3D 生成首帧静态 mesh，再由 R-DMesh 进行视频驱动，即可从真实世界视频一键生成高质量4D动态资产。

四、结论

本文提出了 R-DMesh，首个系统性解决视频驱动 3D 动画中“位姿错配”难题的统一框架。通过创新的 Jump Offset 解耦建模、Triflow Attention 机制以及VDM 先验注入三大核心设计，R-DMesh 在生成质量、时空一致性、几何保真度与推理效率上均大幅超越现有方法。同时发布的 Video-RDMesh 数据集（50万+段高质量动态序列）为 4D 生成领域提供了坚实的数据基础。R-DMesh 不仅推动了视频驱动3D动画的技术前沿，更为通用4D内容创作提供了一套多功能、可扩展的解决方案。

参考文献（节选）

[1] Bahmani S, Skorokhodov I, Rong V, et al. 4d-fy: Text-to-4d generation using hybrid score distillation sampling[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 7996-8006.

[2] Jiang Y, Zhang L, Gao J, et al. Consistent4d: Consistent 360 dynamic object generation from monocular video[C]//International Conference on Learning Representations. 2024, 2024: 51844-51861.

[3] Loper M, Mahmood N, Romero J, et al. SMPL: A skinned multi-person linear model[M]//Seminal Graphics Papers: Pushing the Boundaries, Volume 2. 2023: 851-866.

[4] Wu Z, Yu C, Wang F, et al. Animateanymesh: A feed-forward 4d foundation model for text-driven universal mesh animation[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2025: 13557-13568.

[5] Wu Z, Yu C, Wang F, et al. AnimateAnyMesh++: A Flexible 4D Foundation Model for High-Fidelity Text-Driven Mesh Animation[J]. arXiv preprint arXiv:2604.26917, 2026.

[6] Deitke M, Schwenk D, Salvador J, et al. Objaverse: A universe of annotated 3d objects[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2023: 13142-13153.

[7] Deitke M, Liu R, Wallingford M, et al. Objaverse-xl: A universe of 10m+ 3d objects[J]. Advances in Neural Information Processing Systems, 2023, 36: 35799-35813.

[8] Wu Z, Yu C, Jiang Y, et al. Sc4d: Sparse-controlled video-to-4d generation and motion transfer[C]//European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2024: 361-379.

[9] Ren J, Xie K, Mirzaei A, et al. L4gm: Large 4d gaussian reconstruction model[J]. Advances in Neural Information Processing Systems, 2024, 37: 56828-56858.

[10] Song C, Li X, Yang F, et al. Puppeteer: Rig and animate your 3d models[J]. Advances in Neural Information Processing Systems, 2026, 38: 72152-72184.

下一条：软件学院2026年泰国ODOS夏令营闭幕

祝贺！软件学院研究成果首次发表于计算机图形学国际顶会ACM SIGGRAPH

友情链接：

联系我们：