2023年度  第10期


标题:基于LD特征引导NeRF的可操控语音驱动人脸重演
作者:郑迦恒1 余盛叶1;谢志峰1,2
作者单位:1 上海大学影视工程系,上海 200072;2 上海电影特效工程技术研究中心,上海 200072
关键字:语音驱动人脸重演;神经辐射场;人脸关键点
摘要: 语音驱动的人脸重演的目标是通过输入一段任意语音,驱动目标人物重演相应表情。现有方法无法仅以一段自然场景下视频作为训练素材,实现可操控的高保真语音驱动人脸重演,为此,提出了一种基于LD特征的语音驱动人脸重演方法。首先,对输入视频进行人脸对齐,检测人脸关键点并提取LD特征;然后,通过音频特征提取模块将输入音频映射为一段64维的潜码,构建基于多层感知机的编码器和解码器,由解码器将潜码解码为LD特征后,通过编码器将其还原为潜码表示;接着,将更新后的潜码输入基于网格的NeRF获得采样点密度和颜色,通过体绘制输出头部重演RGB帧;同时,将姿势输入身体变形模块,合成重演帧的身体部分。实验结果证明,方法能够根据输入语音内容生成高保真重演结果,并且在重演过程中能够对目标人物的面部表情进行个性化控制。