标题：基于CLIP和占用网络的文本到3D形状生成方法研究
作者：袁康1，2 王旭智1，2 万旺根1，2；孙学涛2；张振3
作者单位：1 上海大学通信与信息工程学院，上海 200444；2 上海大学智慧城市研究院，上海 200444；3 上海健康医学院附属嘉定区中心医院，上海 200444
关键字：文本到3D形状生成；CLIP；占用网络；多模态对齐
摘要：使用自然语言生成形状可以使我们想象和创造周围事物的方式焕然一新。由于缺乏大规模配对的文本和形状数据，文本到形状的生成仍然是一个具有挑战性的问题。利用两阶段的特征空间对齐策略，利用图像作为桥梁，弥合了文本与形状模态之间的鸿沟，从而能够在无需成对的文本和3D数据的情况下生成3D形状。在ISS模型基础上引入了占用网络，细化从图像特征空间到形状空间的映射，增强了形状细节。然后，将CLIP文本特征映射到形状空间，并通过促进输入文本与渲染图像之间的CLIP一致性来优化映射。与现有方法相比，该方法在生成质量和与输入文本的一致性方面得到了显著提升。