麦克雷 Mavom.cn

标题: #传知代码# 传知代码-无监督动画中关节动画的运动表示(论文复现) [打印本页]

作者: d08096881 时间: 2025-10-2 07:30
标题: #传知代码# 传知代码-无监督动画中关节动画的运动表示(论文复现)
#无监督动画中关节动画的运动表示##运动表示##无监督学习#
本文涉及所有源码以及相关视频介绍地址如下
https://www.aspiringcode.com/content?id=17069434069399&uid=e68a27f8f0ff4765ad9913984ccc50c0
1. 引言
动画在教育和娱乐等领域的广泛应用，并指出了动画对内容创意、故事叙述的清晰度以及用户体验的提升。以前，实现这些效果的动画技术通常需要经过专业培训的专业人员、专用硬件、软件以及大量的工作。虽然现在依旧需要一定的专业知识和努力，但视觉和图形领域通过对一些已知对象类别进行数据驱动方法的训练，试图解决其中一些限制。
最近的一些工作尝试通过无监督的运动转移来避免对真实数据的需求。通过使用图像重建作为损失函数以及解耦运动和外观，已经在训练中取得了显著进展。这为在没有领域知识或标记数据的情况下，仅需使用对象在运动中的视频进行训练，从而有望实现对更广泛对象类别的动画。然而，两个关键问题依旧存在。首先是如何表示关节或非刚性运动对象的各个部分，包括它们的形状和姿态。其次，给定对象的各个部分，如何使用驱动视频中的运动序列对它们进行动画。先前的尝试使用端到端的框架首先提取无监督的关键点，然后通过将源图像的特征嵌入对齐到驱动视频的关键点。后续工作进一步对每个关键点周围的运动进行建模，并引入了一个生成模块，既合成了经过变形的源图像区域又修复了被遮挡的区域，以渲染最终图像。这使得可以进行各种创意应用，例如只需一个源脸部图像就能生成由不同脸部的视频驱动的近乎照片逼真的动画。尽管边缘上的点更容易识别，但在帧之间跟踪这些关键点却很困难，因为边界上的任何点都是有效的候选点，很难建立帧之间的对应关系。此外，这些无监督生成的关键点并不对应语义上有意义的物体部分，仅表示位置和方向，而不是形状。由于这些限制，动画化关节对象（如人体）依旧具有挑战性。而且，这些方法假设背景是静态的，即没有相机运动，导致背景运动信息泄漏到检测到的关键点之一或多个。最后，绝对运动转移将驱动对象的形状转移到生成的序列中，降低了源身份的保真度。这些问题限制了先前工作在处理更复杂对象类别和动作，尤其是在对象关节运动时的适用范围。
为了解决这些挑战，这项工作提出了三个贡献。首先，重新定义基础的运动表示，使用区域来测量一阶运动，而不是进行回归。这使得收敛更加有效，对象和运动表示更加稳定、健壮，还在经验上捕捉了底层物体部分的形状，从而实现更好的运动分割。其次，通过预测全局仿射变换的参数来明确建模训练帧之间的背景或相机运动，解释与非对象相关的运动。这使得模型能够专注于前景对象，使识别的点更加稳定，并进一步提高了收敛性。最后，为了防止形状转移并改善动画效果，在无监督区域的空间中解耦对象的形状和姿态。该框架是自监督的，不需要任何标签，并使用重建损失进行优化。
这些贡献进一步改进了无监督运动转移方法，特别是在关节对象的高保真度动画方面。为了创建更具挑战性的基准测试，作者提出了一个新收集的 TED 演讲演讲者的数据集。他们的框架在无监督区域的数量上更具可扩展性，产生了更详细的运动。该方法在各种数据集上的性能均优于以前的无监督动画方法，包括对话面部、太极视频和动画像素艺术。
2. 动画技术的演进图像动画方法相关工作总结
图像动画方法可以大致分为监督和无监督两类，每种方法都有其独特的挑战和局限性。这篇总结概述了这两类方法中的已有工作，为论文关注的无监督方法提供背景。

(, 下载次数: 6)
图1：通过无监督区域检测实现的静止源图像动画
监督图像动画:
监督方法在训练期间需要关于动画对象的先验知识，通常以地标、语义分割或参数化的3D模型的形式存在。这些方法受到标记数据的需求的限制，仅适用于具有丰富标记数据集的少数对象类别，例如面部和人体。早期的面部再现工作利用3D可塑模型，使用图形技术进行动画和渲染。神经网络后来被引入以提高渲染质量，有时需要每个身份的多个图像。
监督方法的重要部分将动画视为图像到图像或视频到视频的转换问题，将问题限制为对单个对象实例进行动画处理，无论是面部还是人体。尽管这些方法取得了一些有希望的结果，但在更广泛的对象类别范围内进行泛化依旧具有挑战性。此外，它们往往不仅传递了运动，还传递了驱动对象的形状。
无监督图像动画:
无监督方法旨在克服监督方法的局限性，通过消除对动画对象形状或地标的标记数据的需求。这一类别包括基于视频生成的动画方法，其根据初始帧和动画类别标签预测未来帧。值得注意的是，Menapace等人引入了可玩的视频生成，允许在每个时间戳选择动作。
另一组无监督方法专注于将动画从驱动视频重新定向到源帧。X2Face构建了输入面的规范表示，生成了一个基于驱动视频的变形场。Monkey-Net学习无监督关键点以生成动画，随后的工作，包括第一阶段运动模型（FOMM），通过考虑每个关键点的局部仿射变换来增强动画质量。
从经验上看，这些无监督方法通常在动画对象的边界上提取关键点，对于人体等关节对象，内部运动建模不足，导致动画不自然。
3. 论文的贡献:
该论文提出了一种新颖的无监督方法，旨在解决以往方法在对关节对象进行动画处理时的局限性。主要关注的是克服内部表示无法捕捉完整对象部分、形状和姿态的问题。值得注意的是，提出的区域运动表示灵感来自于运动历史图像的构建，利用主要成分进行形状分析。总的来说，该论文通过引入一种新的表示法，增强了对关节对象的理解，特别是解决了与形状和姿态捕捉相关的挑战。这种创新的方法为更为逼真和通用的无监督动画技术打开了新的可能性。
PCA-based Motion Estimation：提出了一种基于PCA的运动估计方法，相比于先前的回归方法，更好地捕捉了物体部分的运动。
Background Motion Representation：明确建模了背景或相机运动，使得系统能够更专注于前景物体，提高了动画效果的稳定性。
Animation via Disentanglement：通过对形状和姿势进行解耦，进一步提升了动画的质量。
4. 方法介绍

(, 下载次数: 5)
图2：模型概览
一阶运动模型
FOMM 主要包括两个部分：运动估计和图像生成，其中运动估计进一步包含粗糙运动估计和密集运动预测。粗糙运动被建模为分离对象部分之间的稀疏运动，而密集运动则生成整个图像的光流和置信度图。我们用S和D分别表示源帧和驱动帧，这两者来自同一视频。
首先从S和D估计各个对象部分的粗糙运动。每个对象部分的运动由仿射变换表示，Ak ∈ R^2x3，到一个抽象的共同参考帧R；X可以是S或D。针对K个不同的部分估计运动。编码器-解码器关键点预测网络输出K个热图，M1到MK，这些热图对输入图像进行建模，然后经过softmax，使得Mk ∈ [0,1]^HW，满足∑Mk(z) = 1，其中z是图像中的像素位置。这样，仿射变换的平移分量（即Ak的最后一列）可以使用softargmax进行估计。
在FOMM 中，剩余的仿射参数通过每个像素进行回归，形成4个附加通道。用于索引仿射矩阵。这个模型被称为基于回归的模型，因为仿射参数由网络预测并进行池化以计算。D和S之间的每个部分k的运动然后通过公共参考帧计算。
基于PCA的运动估计
准确的运动估计是实现高质量图像动画的主要要求。与FOMM不同，我们采用了不同的运动表示方式，即所有运动直接从热图Mk中测量。我们像以前一样计算平移，而x和y方向的平面旋转和缩放则通过热图Mk的主成分分析（PCA）进行计算。
这里使用奇异值分解（SVD）方法来计算PCA，将热图的协方差分解为酉矩阵Uk和V_k以及奇异值的对角矩阵S_k。我们称这种方法为基于PCA的方法，与基于回归的方法相对。尽管这两者在此使用相同的区域表示和编码器，但由于我们创新的前景运动表示，编码的区域之间存在显著的差异，将前景映射到有意义的对象部分，例如关节。
背景运动估计
背景占据图像的大部分。因此，即使在帧之间有微小的背景运动，例如由于摄像机运动引起的运动，也会对动画质量产生负面影响。FOMM未将背景运动单独处理，因此必须使用关键点对其进行建模。这带来了两个负面影响：（i）需要额外的网络容量，因为关键点用于模拟背景而不是前景；（ii）过度拟合训练集，因为这些关键点集中在背景的特定部分上，而这些部分可能在测试集中不存在。因此，我们使用编码器网络额外预测背景仿射变换。由于我们的框架是无监督的，背景网络可能将前景的某些部分包
6. 总结
动画技术在教育和娱乐中占据着重要的地位。然而，以往的动画方法通常需要专业培训、专业硬件和大量努力。近年来，数据驱动的方法成为解决这些问题的尝试，其中无监督动画框架受到广泛关注。然而，这些框架在处理关节对象方面的表现不佳，其表示方法限制了其在动画领域的应用。出了一种全新的PCA-Based区域运动表示方法，通过主成分分析，更容易使网络学习到区域运动，同时鼓励学习语义丰富的对象部分。此外，引入了背景运动估计模块，有力地解耦了前景和背景的运动，为动画质量的提升提供了新的途径。

(, 下载次数: 5)

欢迎光临麦克雷 Mavom.cn (http://www.mavom.cn/)