2025年度  第11期


标题:基于多模态编码器的文本驱动人体运动生成
作者:李朋 谭肖 刘杰 王向阳
作者单位:上海大学通信与信息工程学院,上海 200444
关键字:人体动作生成;跨模态检索;3D骨骼序列
摘要:近年来,通过文本生成相应人体运动3D骨骼序列的任务得到了研究者的重视。但是,从这些庞大的时空骨骼数据中提取关键信息仍然是一个艰巨的任务。为了应对这一挑战,提出了一种创新的多模态编码器-解码器人体动作生成器,它能够将自然语言描述与人体动作检索相结合。这种双重输入方法不仅提高了动作合成的准确性,还根据用户的叙述简化了整个流程。该模型在KIT Motion-Language和HumanML3D数据集上进行了评估,通过两种流行的度量学习损失函数,显示出在提炼期望动作搜索方面的性能提升,超越了其他模型,突显了其在人体动作生成和提取技术方面的显著潜力。