一文带你入门NeRF：利用PyTorch实现NeRF代码详解（附代码）

2023-09-30 22:14 作者:3D视觉工坊 0人读过 | 我要投稿

作者：大森林 | 来源：3DCV

在公众号「3DCV」后台，回复「原论文」即可获取代码。

添加微信：dddvisiona，备注：NeRF，拉你入群。文末附行业细分群。

神经辐射场（NeRF）是一种利用神经网络来表示和渲染复杂的三维场景的方法。它可以从一组二维图片中学习出一个连续的三维函数，这个函数可以给出空间中任意位置和方向上的颜色和密度。通过体积渲染的技术，NeRF可以从任意视角合成出逼真的图像，包括透明和半透明物体，以及复杂的光线传播效果。

NeRF模型相比于其他新的视图合成和场景表示方法有以下几个优势：

1）NeRF不需要离散化的三维表示，如网格或体素，因此可以避免模型精度和细节程度受到限制。NeRF也可以自适应地处理不同形状和大小的场景，而不需要人工调整参数。

2）NeRF使用位置编码的方式将位置和角度信息映射到高频域，使得网络能够更好地捕捉场景的细微结构和变化。NeRF还使用视角相关的颜色预测，能够生成不同视角下不同的光照效果。

3）NeRF使用分段随机采样的方式来近似体积渲染的积分，这样可以保证采样位置的连续性，同时避免网络过拟合于离散点的信息。NeRF还使用多层级体素采样的技巧，以提高渲染效率和质量。

1）定义一个全连接的神经网络，它的输入是空间位置和视角方向，输出是颜色和密度。

2）使用位置编码的方式将输入映射到高频域，以便网络能够捕捉细微的结构和变化。

3）使用分段随机采样的方式从每条光线上采样一些点，然后用神经网络预测这些点的颜色和密度。

4）使用体积渲染的公式计算每条光线上的颜色和透明度，作为最终的图像输出。

5）使用渲染损失函数来优化神经网络的参数，使得渲染的图像与输入的图像尽可能接近。

import torchimport torch.nn as nnimport torch.nn.functional as F# 定义一个全连接的神经网络，它的输入是空间位置和视角方向，输出是颜色和密度。class NeRF(nn.Module): def __init__(self, D=8, W=256, input_ch=3, input_ch_views=3, output_ch=4, skips=[4]): super().__init__() # 定义位置编码后的位置信息的线性层，如果层数在skips列表中，则将原始位置信息与隐藏层拼接 self.pts_linears = nn.ModuleList( [nn.Linear(input_ch, W)] + [nn.Linear(W, W) if i not in skips else nn.Linear(W + input_ch, W) for i in range(D-1)]) # 定义位置编码后的视角方向信息的线性层 self.views_linears = nn.ModuleList([nn.Linear(W + input_ch_views, W//2)] + [nn.Linear(W//2, W//2) for i in range(1)]) # 定义特征向量的线性层 self.feature_linear = nn.Linear(W//2, W) # 定义透明度（alpha）值的线性层 self.alpha_linear = nn.Linear(W, 1) # 定义RGB颜色的线性层 self.rgb_linear = nn.Linear(W + input_ch_views, 3) def forward(self, x): # x: (B, input_ch + input_ch_views) # 提取位置和视角方向信息 p = x[:, :3] # (B, 3) d = x[:, 3:] # (B, 3) # 对输入进行位置编码，将低频信号映射到高频域 p = positional_encoding(p) # (B, input_ch) d = positional_encoding(d) # (B, input_ch_views) # 将位置信息输入网络 h = p for i, l in enumerate(self.pts_linears): h = l(h) h = F.relu(h) if i in skips: h = torch.cat([h, p], -1) # 如果层数在skips列表中，则将原始位置信息与隐藏层拼接 # 将视角方向信息与隐藏层拼接，并输入网络 h = torch.cat([h, d], -1) for i, l in enumerate(self.views_linears): h = l(h) h = F.relu(h) # 预测特征向量和透明度（alpha）值 feature = self.feature_linear(h) # (B, W) alpha = self.alpha_linear(feature) # (B, 1) # 使用特征向量和视角方向信息预测RGB颜色 rgb = torch.cat([feature, d], -1) rgb = self.rgb_linear(rgb) # (B, 3) return torch.cat([rgb, alpha], -1) # (B, 4)# 定义位置编码函数def positional_encoding(x): # x: (B, C) B, C = x.shape L = int(C // 2) # 计算位置编码的长度 freqs = torch.logspace(0., L - 1, steps=L).to(x.device) * math.pi # 计算频率系数，呈指数增长 freqs = freqs[None].repeat(B, 1) # (B, L) x_pos_enc_low = torch.sin(x[:, :L] * freqs) # 对前一半的输入进行正弦变换，得到低频部分 (B, L) x_pos_enc_high = torch.cos(x[:, :L] * freqs) # 对前一半的输入进行余弦变换，得到高频部分 (B, L) x_pos_enc = torch.cat([x_pos_enc_low, x_pos_enc_high], dim=-1) # 将低频和高频部分拼接，得到位置编码后的输入 (B, C) return x_pos_enc# 定义体积渲染函数def volume_rendering(rays_o, rays_d, model): # rays_o: (B, 3), 每条光线的起点 # rays_d: (B, 3), 每条光线的方向 B = rays_o.shape[0] # 在每条光线上采样一些点 near, far = 0., 1. # 近平面和远平面 N_samples = 64 # 每条光线的采样数 t_vals = torch.linspace(near, far, N_samples).to(rays_o.device) # (N_samples,) t_vals = t_vals.expand(B, N_samples) # (B, N_samples) z_vals = near * (1. - t_vals) + far * t_vals # 计算每个采样点的深度值 (B, N_samples) z_vals = z_vals.unsqueeze(-1) # (B, N_samples, 1) pts = rays_o.unsqueeze(1) + rays_d.unsqueeze(1) * z_vals # 计算每个采样点的空间位置 (B, N_samples, 3) # 将采样点和视角方向输入网络 pts_flat = pts.reshape(-1, 3) # (B*N_samples, 3) rays_d_flat = rays_d.unsqueeze(1).expand(-1, N_samples, -1).reshape(-1, 3) # (B*N_samples, 3) x_flat = torch.cat([pts_flat, rays_d_flat], -1) # (B*N_samples, 6) y_flat = model(x_flat) # (B*N_samples, 4) y = y_flat.reshape(B, N_samples, 4) # (B, N_samples, 4) # 提取RGB颜色和透明度（alpha）值 rgb = y[..., :3] # (B, N_samples, 3) alpha = y[..., 3] # (B, N_samples) # 计算每个采样点的权重 dists = torch.cat([z_vals[..., 1:] - z_vals[..., :-1], torch.tensor([1e10]).to(z_vals.device).expand(B, 1)], -1) # 计算相邻采样点之间的距离，最后一个距离设为很大的值 (B, N_samples) alpha = 1. - torch.exp(-alpha * dists) # 计算每个采样点的不透明度，即1减去透明度的指数衰减 (B, N_samples) weights = alpha * torch.cumprod(torch.cat([torch.ones((B, 1)).to(alpha.device), 1. - alpha + 1e-10], -1), -1)[:, :-1] # 计算每个采样点的权重，即不透明度乘以之前所有采样点的透明度累积积，最后一个权重设为0 (B, N_samples) # 计算每条光线的最终颜色和透明度 rgb_map = torch.sum(weights.unsqueeze(-1) * rgb, -2) # 加权平均每个采样点的RGB颜色，得到每条光线的颜色 (B, 3) depth_map = torch.sum(weights * z_vals.squeeze(-1), -1) # 加权平均每个采样点的深度值，得到每条光线的深度 (B,) acc_map = torch.sum(weights, -1) # 累加每个采样点的权重，得到每条光线的不透明度 (B,) return rgb_map, depth_map, acc_map# 定义渲染损失函数def rendering_loss(rgb_map_pred, rgb_map_gt): return ((rgb_map_pred - rgb_map_gt)**2).mean() # 计算预测的颜色与真实颜色之间的均方误差
综上所述，本代码实现了NeRF的核心结构，具体实现内容包括以下四个部分。

1）定义了NeRF网络结构,包含位置编码和多层全连接网络,输入是位置和视角,输出是颜色和密度。

2）实现了位置编码函数,通过正弦和余弦变换引入高频信息。

3）实现了体积渲染函数,在光线上采样点,查询NeRF网络预测颜色和密度,然后通过加权平均实现整体渲染。

4）定义了渲染损失函数,计算预测颜色和真实颜色的均方误差。

当然，本方案只是实现NeRF的一个基础方案，更多的细节还需要进行优化。需要完整学习代码的同学可以通过下面两个链接获取：

原论文及代码（NeRF: Neural Radiance Fields）：https://github.com/bmild/nerf

大佬实现的pytorch版本（NeRF-pytorch）：https://github.com/yenchenlin/nerf-pytorch

当然，为了方便下载，我们已经将上述两个源代码打包好了，请关注“3D视觉工坊公众号”，回复：原论文，获取完整详细代码。

标签：

我喜欢()

本文作者的其他文章

一文带你入门NeRF：利用PyTorch实现NeRF代码详解（附代码）的评论 (共条)

分享到微博请遵守国家法律

3D视觉工坊
 发短消息
 关注TA

你可能也喜欢这些文章

【两天一夜4】无法恢复的10%收视率…节目的“甜味”都退去了吗?
全国工业职工演唱大赛海选及初赛圆满完成，唐渊秘书长介绍情况
每日赛马娘图片精选
韩网热议！SHINee Key为自己涉嫌肤色歧视的言论道歉，称“今后会更加注意，非常抱歉”
【明日方舟漫画】0930
一个测试暴露你做人有多黑暗？危机时刻你会是悲观主义？利己主义？or弱肉强食？为了
中秋節大家都在烤肉,而我睡睡睡
工业革命：人类历史上的伟大转折
詹姆斯·古恩表示观众不必太担心DCU世界观已经存在一些超级英雄的问题
【深空之眼】迟来的中秋快乐捏～

最新发布的文章

农发行河津市支行做好年终决算工作
农发行河津市支行持续加强反洗钱工作管理
农发行河津市支行扎实做好安保工作
农发行河津市支行组织开展宪法主题宣传活动
农发行河津市支行开展"挺膺担当，强国复兴"主题团日活动
年终总结2023，布局2024，挑一个目标置顶一整年！
12月20日维护结束，冰雪嘉年华开启！
2023扫文—高热不止 by 黄昏密度
Dive 55 工作的平衡
时尚 | 时尚趋势是如何做出来的？
三星 Galaxy S24 Ultra，HP2SX两亿像素主摄，骁龙8Gen3超频版，钛合金机身，类2K直屏
重庆TOP DECK超牌12月16日游戏王OCG积分赛环境战报
致命公司多人联机mod，汉化游戏下载使用安装教学！
致命公司多人mod，超全MOD模组管理器
战网下载卡在45%登录失败提示2045报错/战网一键下载注册教程！

一文带你入门NeRF：利用PyTorch实现NeRF代码详解（附代码）

本文作者的其他文章

一文带你入门NeRF：利用PyTorch实现NeRF代码详解（附代码）的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

一文带你入门NeRF：利用PyTorch实现NeRF代码详解（附代码）的评论 (共条)