笔记 – Efficient Geometry-aware 3D Generative Adversarial Networks

EG3D 对三维场景的表示方式是显式-隐式混合的，这种表示方式之后被称为 Triplane。除此之外的主要贡献一个 3D GAN 的框架。

细节一堆。这里仅关注 Triplane 部分。

arxiv.org/pdf/2112.07945（2021 年 12 月）

这是啥？

EG3D 是一种 3D GAN，实现：输入单张 2D 图片，模型理解其三维内容，可以快速渲染出任意临近视角的观察结果。相比 NeRF 等纯隐式神经网络，EG3D 网络对三维物体的理解更加“显式”，可以提取出一些几何信息。
Pasted image 20250806204347.png

Triplane

既然是 GAN 就肯定有 Generator 和 Discriminator 两个部分。EG3D 的 Generator 包含两个阶段，其一是用一个基于 StyleGAN2 的网络（啥玩意）生成 3D 特征，其二是基于 3D 特征，带上相机信息利用神经渲染（具体而言就是体渲染）得到图片。

Triplane 就是 EG3D 的特征表示方式。其由三个互相正交的特征平面 $F_{x y}, F_{y z}, F_{x z}$ 构成，每个特征平面是一个 $N \times N \times C$ 的张量，其中 $N \times N$ 描述这个特征平面的分辨率， $C$ 是特征平面单像素的特征 Tensor 大小。

在特征生成和体渲染中间插一个特征 Decoder，用于将特征解码为颜色+体密度用于体渲染。对每个待查询的空间点，在三个特征平面上插值得到这个点的三个特征（因为 $N$ 往往不大，而体渲染所需要的点在某些位置往往很密）。

为啥不直接用 $N \times N \times N \times C$ 的三维特征图？空间开销大。

那为啥不直接搞个巨大 $M \times C$ 的特征张量组，然后每个点以奇怪的方式映射上去？不清楚。表示能力差吧。

一般认为 NeRF 是典型的隐式空间表示；三维特征图是典型的显式空间表示。

声明: 本文采用 BY-NC-SA 协议进行授权，如无注明均为原创，转载请注明转自大仓库
本文地址: 笔记 – Efficient Geometry-aware 3D Generative Adversarial Networks