EG3D 对三维场景的表示方式是 显式-隐式 混合的,这种表示方式之后被称为 Triplane。除此之外的主要贡献一个 3D GAN 的框架。

细节一堆。这里仅关注 Triplane 部分。

arxiv.org/pdf/2112.07945(2021 年 12 月)


这是啥?

EG3D 是一种 3D GAN,实现:输入单张 2D 图片,模型理解其三维内容,可以快速渲染出任意临近视角的观察结果。相比 NeRF 等纯隐式神经网络,EG3D 网络对三维物体的理解更加“显式”,可以提取出一些几何信息。
Pasted image 20250806204347.png

Triplane

既然是 GAN 就肯定有 Generator 和 Discriminator 两个部分。EG3D 的 Generator 包含两个阶段,其一是用一个基于 StyleGAN2 的网络(啥玩意)生成 3D 特征,其二是基于 3D 特征,带上相机信息利用神经渲染(具体而言就是体渲染)得到图片。

Triplane 就是 EG3D 的特征表示方式。其由三个互相正交的特征平面 Fxy,Fyz,Fxz 构成,每个特征平面是一个 N×N×C 的张量,其中 N×N 描述这个特征平面的分辨率,C 是特征平面单像素的特征 Tensor 大小。

在特征生成和体渲染中间插一个特征 Decoder,用于将特征解码为颜色+体密度用于体渲染。对每个待查询的空间点,在三个特征平面上插值得到这个点的三个特征(因为 N 往往不大,而体渲染所需要的点在某些位置往往很密)。

为啥不直接用 N×N×N×C 的三维特征图?空间开销大。

那为啥不直接搞个巨大 M×C 的特征张量组,然后每个点以奇怪的方式映射上去?不清楚。表示能力差吧。

一般认为 NeRF 是典型的隐式空间表示;三维特征图是典型的显式空间表示。

评论功能没修好,暂不开放