腾讯发布PrimitiveAnything:颠覆3D形状生成方式!

2

在计算机视觉和图形学领域,3D形状的抽象表示一直以来都是一个基础且至关重要的研究方向。通过将复杂的三维形状分解为更易于理解的几何单元,研究者们能够更好地模拟和理解人类视觉感知的内在机制,为诸多应用场景奠定基础。

QQ_1747013398902.png

现有的3D生成方法在应对机器人操作或复杂场景理解等任务时,常常难以满足对语义深度和可解释性的严苛要求。传统的形状抽象方法往往面临过度细分的问题,导致信息冗余,或是缺乏足够的泛化能力,无法适应多样化的形状变化。

针对以上挑战,腾讯AIPD与清华大学的研究团队联合推出了一个名为PrimitiveAnything的创新框架,旨在从根本上重新定义形状抽象的过程,将其转化为一个原始组件的生成任务。该框架的核心在于采用了一种解码器式的变换器架构,能够根据输入的形状特征,高效地生成可变长度的原始组件序列,从而在几何精度和学习效率上实现显著提升。这种方法的独到之处在于,它不再是简单地对形状进行分割,而是试图理解形状是如何由更基本的几何元素组合而成的。

PrimitiveAnything框架的一个关键优势在于其统一且无歧义的参数化方案,这种方案能够支持多种不同的原始形状类型。这意味着该框架不仅可以处理简单的立方体或球体,还能灵活地表示更复杂的几何形状。这种创新设计使得框架能够有效地捕捉复杂形状的内在结构,从而更贴近人类的直观理解。

QQ_1747013363011.png

在3D形状的生成过程中,PrimitiveAnything采用了自动回归的方式。这意味着框架会逐步生成形状的各个组成部分,并根据已生成的部分来预测下一个组件。具体来说,每个原始组件的类型、位置、旋转和缩放等属性都会被编码并输入到变换器中,以预测序列中的下一个组件。为了确保生成过程的一致性和连贯性,该框架还使用了级联解码器来建模各个属性之间的依赖关系。

为了训练PrimitiveAnything框架,研究团队采用了多种损失函数的组合。交叉熵损失用于指导组件类型的预测,Chamfer距离用于衡量重构的准确性,而Gumbel-Softmax则用于实现可微采样,使得框架能够在离散的组件类型之间进行平滑的过渡。训练过程会一直持续到生成一个结束标记为止,表明整个形状已经完整地生成。这种训练流程使得PrimitiveAnything能够以一种灵活且类人的方式来分解复杂的3D形状。

为了充分验证PrimitiveAnything框架的有效性,研究团队构建了一个大规模的HumanPrim数据集。该数据集包含了12万个样本,并且每个样本都经过了手动注释的原始组件。通过使用诸如Chamfer距离、地球移动者距离和Hausdorff距离等多项指标进行评估,结果表明PrimitiveAnything在重构准确性和与人类抽象模式的一致性上均表现出色。

除了在重构准确性方面的优势外,PrimitiveAnything框架还支持从文本或图像输入生成3D内容。用户可以通过简单的文本描述或上传一张图片,就能够生成相应的3D模型。更重要的是,用户可以轻松地编辑生成结果,从而实现高度定制化的3D内容创作。该框架不仅建模质量高,而且还能够实现超过95%的存储节省,使其特别适合于高效的互动3D应用。

PrimitiveAnything框架通过将3D形状抽象视为一个序列生成任务,充分利用了人类设计的原始组件,成功地捕捉到了直观的分解模式。这意味着该框架不仅能够理解形状的几何结构,还能够理解形状的语义信息。无论是在各种物体类别中,PrimitiveAnything都能够实现高质量的生成,展现出强大的泛化能力。

凭借其高效和轻量化的特性,PrimitiveAnything非常适合用于游戏等需要高性能和操作简便性的用户生成内容应用。该框架可以帮助游戏开发者快速创建大量的3D模型,从而丰富游戏的内容。同时,用户也可以使用该框架来创建自己的游戏角色或场景。

总而言之,PrimitiveAnything框架的出现,为3D形状的生成和抽象提供了一种全新的思路。它不仅提高了生成效率和准确性,还使得3D内容创作变得更加简单和 accessible。可以预见,在不久的将来,PrimitiveAnything将在计算机视觉、图形学、游戏开发等领域发挥越来越重要的作用。

该框架的演示地址为:https://huggingface.co/spaces/hyz317/PrimitiveAnything,感兴趣的读者可以自行体验。