标题：基于LD特征引导NeRF的可操控语音驱动人脸重演
作者：郑迦恒1 余盛叶1；谢志峰1，2
作者单位：1 上海大学影视工程系，上海 200072；2 上海电影特效工程技术研究中心，上海 200072
关键字：语音驱动人脸重演；神经辐射场；人脸关键点
摘要： 语音驱动的人脸重演的目标是通过输入一段任意语音，驱动目标人物重演相应表情。现有方法无法仅以一段自然场景下视频作为训练素材，实现可操控的高保真语音驱动人脸重演，为此，提出了一种基于LD特征的语音驱动人脸重演方法。首先，对输入视频进行人脸对齐，检测人脸关键点并提取LD特征；然后，通过音频特征提取模块将输入音频映射为一段64维的潜码，构建基于多层感知机的编码器和解码器，由解码器将潜码解码为LD特征后，通过编码器将其还原为潜码表示；接着，将更新后的潜码输入基于网格的NeRF获得采样点密度和颜色，通过体绘制输出头部重演RGB帧；同时，将姿势输入身体变形模块，合成重演帧的身体部分。实验结果证明，方法能够根据输入语音内容生成高保真重演结果，并且在重演过程中能够对目标人物的面部表情进行个性化控制。