Key to our approach is our treatment of well-fit triplanes in a shared latent space as ground truth data for training our diffusion model. We show that the latent space of these triplanes is grounded spatially in local detail, giving the diffusion model a critical inductive bias for 3D generation. Our approach gives rise to an expressive 3D diffusion model.
3D 场景表示:使用神经场将场景表示为连续函数可以很好的扩展场景复杂性。最初的NERF是只使用单一的、大型的MLP来表示整个场景。后面主要的改进是利用局部函数学习,或使用混合显式-隐式表示,使用小的MLP来进行推理,且在局部场景细节表现的更好。本文采用的是EG3D介绍的混合三平面表示,但为了与去噪框架兼容做了一些调整。
Triplane representation:是一种混合的显-隐式的神经场网络架构; 其使用三个二维特征平面
f
x
,
f
y
,
y
z
∈
R
N
×
N
×
C
f_x,f_y,y_z \in R^{N×N×C}
fx,fy,yz∈RN×N×C (每个fearture的维度是**
N
×
N
×
C
N×N×C
N×N×C)和一个轻量级decoder(MLP)——解释平面特征。
通过将3D坐标投影到每个轴向平面(
x
−
y
,
x
−
z
,
y
−
z
x-y,x-z,y-z
x−y,x−z,y−z),查询和聚合各自的特征,并利用
M
L
P
ϕ
MLP_\phi
MLPϕ 解码上述处理过的feature (通过求和来进行特征聚合)
N
F
(
x
)
=
M
L
P
ϕ
(
f
x
y
(
x
)
+
f
y
z
(
x
)
+
f
x
z
(
x
)
)
NF(x)=MLP_\phi(f_{xy}(x)+f_{yz}(x)+f_{xz}(x))
NF(x)=MLPϕ(fxy(x)+fyz(x)+fxz(x))
L
N
A
I
V
E
=
∑
i
I
∑
j
J
∥
N
F
(
i
)
(
x
j
(
i
)
)
−
O
j
(
i
)
∥
2
\mathcal{L}_{\mathrm{NAIVE}}=\sum_{i}^{I} \sum_{j}^{J}\left\|_{\mathrm{NF}^{(i)}}\left(\mathbf{x}_{j}^{(i)}\right)-\mathrm{O}_{j}^{(i)}\right\|_{2}
LNAIVE=i∑Ij∑J∥∥∥NF(i)(xj(i))−Oj(i)∥∥∥2
Training a Diffusion Model for Triplane Features中:
L
D
D
P
M
=
E
t
,
f
0
,
ϵ
[
∥
ϵ
−
ϵ
θ
(
α
ˉ
t
f
0
+
1
−
α
ˉ
t
ϵ
,
t
)
∥
2
]
\mathcal{L}_{\mathrm{DDPM}}=\mathbb{E}_{t, \mathbf{f}_0, \boldsymbol{\epsilon}}\left[\left\|\boldsymbol{\epsilon}-\boldsymbol{\epsilon}_\theta\left(\sqrt{\bar{\alpha}_t} \mathbf{f}_0+\sqrt{1-\bar{\alpha}_t} \boldsymbol{\epsilon}, t\right)\right\|^2\right]
LDDPM=Et,f0,ϵ[∥∥ϵ−ϵθ(αˉtf0+1−αˉtϵ,t)∥∥2]
f
0
~
q
(
f
0
)
f_0 ~q(f_0)
f0~q(f0) :数据分布中抽取的随机样本
f
T
~
N
(
f
T
;
0
,
I
)
f_T ~N(f_T;0,I)
fT~N(fT;0,I) :纯高斯噪声组成的三平面特征图,分T步逐步去噪
f
0...
T
∈
R
N
×
N
×
3
C
f_{0...T}∈ R^{N ×N ×3C}
f0...T∈RN×N×3C :三平面特征(在扩散模型中将三个三平面特征堆叠到一个图像中)
Regularizing Triplanes for Effective Generalization
简单的利用(a shared triplane decoder + a dataset of triplane features),在从这些三平面特征上训练一个扩散模型后进行推理得到的shape具有人工制品的嫌疑。
加入一个显式密度正则项EDR,从体积中采样一组随机点,用随机向量
ω
\omega
ω 来抵消这些点,用MLP来计算他们的均方误差
E
D
R
(
N
F
(
x
)
,
ω
)
=
‖
N
F
(
x
)
−
N
F
(
x
+
ω
)
‖
2
2
EDR (NF (x), ω) =‖NF (x)−NF (x + ω)‖_2^2
EDR(NF(x),ω)=‖NF(x)−NF(x+ω)‖22 ——上述的目的是来学习smooth outside-of-shape volume
因此最终的训练Loss如下:
L
=
∑
i
N
∑
j
M
∥
N
F
(
i
)
(
x
j
(
i
)
)
−
o
j
(
i
)
∥
2
+
λ
1
(
T
V
(
f
x
y
(
i
)
)
+
T
V
(
f
x
z
(
i
)
)
+
T
V
(
f
y
z
(
i
)
)
)
+
λ
2
(
∥
f
x
y
(
i
)
∥
2
+
∥
f
y
z
(
i
)
∥
2
+
∥
f
x
z
(
i
)
∥
2
)
+
EDR
(
N
F
(
x
j
(
i
)
)
,
ω
)
\begin{aligned} \mathcal{L}=\sum_{i}^{N} \sum_{j}^{M} &\left\|\mathrm{NF}^{(i)}\left(\mathbf{x}_{j}^{(i)}\right)-\mathrm{o}_{j}^{(i)}\right\|_{2} \\ &+\lambda_{1}\left(\mathrm{TV}\left(\mathbf{f}_{x y}^{(i)}\right)+\mathrm{TV}\left(\mathbf{f}_{x z}^{(i)}\right)+\mathrm{TV}\left(\mathbf{f}_{y z}^{(i)}\right)\right) \\ &+\lambda_{2}\left(\left\|\mathbf{f}_{x y}^{(i)}\right\|_{2}+\left\|\mathbf{f}_{y z}^{(i)}\right\|_{2}+\left\|\mathbf{f}_{x z}^{(i)}\right\|_{2}\right) \\ &+\operatorname{EDR}\left(\mathrm{NF}\left(\mathbf{x}_{j}^{(i)}\right), \boldsymbol{\omega}\right) \end{aligned}
L=i∑Nj∑M∥∥∥NF(i)(xj(i))−oj(i)∥∥∥2+λ1(TV(fxy(i))+TV(fxz(i))+TV(fyz(i)))+λ2(∥∥∥fxy(i)∥∥∥2+∥∥∥fyz(i)∥∥∥2+∥∥∥fxz(i)∥∥∥2)+EDR(NF(xj(i)),ω)
Sampling Novel 3D Shape
推理过程中shape的无条件生成分为两个Steps
从训练的扩散模型中采样三平面(与从扩散模型中采样图像是相同的)
f
t
−
1
=
1
α
t
(
f
t
−
1
−
α
t
1
−
α
ˉ
t
ϵ
θ
(
f
t
,
t
)
)
+
σ
t
ϵ
\mathbf{f}_{t-1}=\frac{1}{\sqrt{\alpha_t}}\left(\mathbf{f}_t-\frac{1-\alpha_t}{\sqrt{1-\bar{\alpha}_t}} \boldsymbol{\epsilon}_\theta\left(\mathbf{f}_t, t\right)\right)+\sigma_t \boldsymbol{\epsilon}
ft−1=αt1(ft−1−αˉt1−αtϵθ(ft,t))+σtϵ
去噪过程的最后结果是归一化的三平面特征图像分布中的一个样本
f
0
f_0
f0,然后对其进行反归一化,并将生成的特征分割为
f
x
y
,
f
y
z
,
f
x
z
f_{xy},f_{yz},f_{xz}
fxy,fyz,fxz ,生成一组三平面特征