用于与网格无关的面部表情克隆的神经面部蒙皮

# 用于与网格无关的面部表情克隆的神经面部蒙皮

# Neural Face Skinning for Mesh-agnostic Facial Expression Cloning

用于与网格无关的面部表情克隆的神经面部蒙皮
https://chacorp.github.io/nfs-page/ (opens new window)
用于与网格无关的面部表情克隆的神经面部蒙皮
2026-02-27 14:19

# 用于与网格无关的面部表情克隆的神经面部蒙皮

尹世琳 (opens new window)¹,徐光俊 (opens new window)²,Junyong Noh (opens new window)¹,

¹视觉媒体实验室 (opens new window)，韩国科学技术院，韩国

²完美的人工智能 (opens new window)，美国

欧洲地理 2025

纸 (opens new window) ArXiv (opens new window)代码 (opens new window)

# 我们提出了一种方法，可以在具有不同形状和网格结构的两个面部网格之间直接重定向。

# 抽象的

将面部表情准确地重新定位到面部网格，同时启用操作是面部动画重新定位的关键挑战。最近的深度学习方法通过将面部表情编码为全局潜在代码来解决这个问题，但它们通常无法捕获局部区域的细粒度细节。虽然一些方法通过局部转移变形来提高局部精度，但这通常使面部表情的整体控制变得复杂。为了解决这个问题，我们提出了一种结合全局和局部变形模型优点的方法。我们的方法可以实现跨不同面部网格的直观控制和详细表达克隆，无论其底层结构如何。核心思想是局部化全局潜在代码对目标网格的影响。我们的模型学习通过预定义分割标签的间接监督来预测目标面部网格每个顶点的蒙皮权重。这些预测的权重本地化了全局潜在代码，即使对于具有看不见形状的网格也能实现精确且特定于区域的变形。我们使用基于面部动作编码系统（FACS）的混合形状来监督潜在代码，以确保可解释性并允许直接编辑生成的动画。通过大量的实验，我们证明了在表达保真度、变形传递准确性和跨不同网格结构的适应性方面比最先进的方法有更好的性能。

# 关键思想

# 简要说明关键思想。

我们的方法通过利用每顶点蒙皮权重来定位全局表达对目标网格中局部区域的影响，从而实现对局部区域的精确表达克隆。

# 概述

推理 (a) 和训练 (b) 时的数据流图示。为简单起见，(b) 中省略了编码器，红色虚线框表示专门应用于 ICT 数据的损耗。

在训练中，我们利用 ICT-Facekit 创建的合成数据和来自 Multiface 数据集的真实数据进行训练。在训练期间，我们使用 ICT Blendshape 来监督身份和表达编码器。

除了身份和表达编码器之外，我们还使用蒙皮编码器来预测目标网格的每个顶点蒙皮权重。蒙皮权重用于本地化全局表达式代码。给定局部表达代码，解码器输出局部变形，从而使目标网格变形。

# 分段监管

# ICT 面网格的分割标签。

我们方法的一个关键方面是预测捕捉局部区域和全局表达代码之间关系的蒙皮权重。

然而，我们不能直接使用蒙皮权重来监督模型，因为混合形状面部模型不使用蒙皮权重。为了解决这个问题，我们使用分段标签来监督蒙皮编码器。

为了使用分割标签来监督蒙皮编码器，我们创建了一个分割图，通过参考面部肌肉群，基于 ICT 将面部划分为多个区域。我们不强迫 z_Skin 采用严格的 one-hot 形式，允许在训练期间保留一定程度的空间相关性。仅当训练数据是从 ICT 获取时才进行监督。

ICT 面部网格和各种不可见网格上的面部蒙皮权重可视化。我们提取每个顶点的 z_Skin 中的最大值，并计算每个三角形上的众数以进行渲染。

这种间接监督的目的是通过确保不同面部形状的相应面部区域的蒙皮权重一致来规范蒙皮编码器。虽然蒙皮编码器可以在没有这种监督的情况下收敛，但估计的权重可能缺乏所需的一致性。

# 实验

为了评估表情质量，我们进行了一项自重定向任务，其中模型将带有表情的面部网格重定向到中性表情中的相同网格。我们还进行了逆向绑定实验，以验证我们构建的表达代码是否符合基于 FACS 的 ICT Blendshape 模型的语法。

# 具有看不见的 ID 和表达式的 ICT（随机采样混合形状）

# 具有看不见的 ID 和表达式的 ICT（使用 LiveLink 应用程序捕获）

# 具有看不见的 ID 和表情的多重面孔 (EXP_free_face)

# 程式化脸部网格上的表达克隆

# 应用

# 编辑表达式

# 局限性

限制之一是可编辑性受限于 ICT 混合形状，它无法处理头部姿势和颈部运动。只需将这些运动包含在基础混合形状中即可解决此问题。第二个限制来自蒙皮编码器，因为当形状很大程度上偏离学习数据时，蒙皮权重预测不准确，如图所示。最后，出现时间抖动，如视频所示。集成时间模块将是未来工作的潜在方向。

# 书目词典


      @inproceedings{cha2025neural,
        title={Neural Face Skinning for Mesh-agnostic Facial Expression Cloning},
        author={Cha, Sihun and Yoon, Serin and Seo, Kwanggyoon and Noh, Junyong},
        booktitle={Computer Graphics Forum},
        pages={e70009},
        year={2025},
        organization={Wiley Online Library}
      }

1
2
3
4
5
6
7
8
9
10

#Neural Face Skinning #AI #Facial Expression #面部表情

← 骨架感知网络的动作重定向 PhysHMR：从视觉中学习人形控制策略，以实现物理上合理的人体运动重建→