NeRFとその派生研究が流行っている(Computer Graphics × 機械学習)
Light Field自体は、Novel View Synthesisに対し、NeRFと異なるアプローチをとっている
(Novel View Synthesisの文脈で) "Light Field" なる単語をたまに見かけるが、何なのか全く知らない
今回幾つか読んだ中で、初見では彼らの提案内容(のアイディア)をよく理解できなかった
Novel View Synthesisを訳すと「新規視点の光景を合成」となる。もう少し言葉を補ってやると、これは
タスクである。特にここで考えている入出力としては、右図にも示したような
という形式である。
なお、古くから存在する定番のタスクだと思われるが、 最近のneural networkによるシーン表現の研究と、 2022年のNeRF論文によって、耳目を集めている。
H×Wピクセル程度の新規視点画像を合成する事を考える。 放射輝度分布を知るための、典型的な必要サンプリング数をMとおくと、計算コストのオーダーはH×W×M(要するに、3次元の解像度レベル)になる。
とくにW∼300、H∼300、M∼128∼102とおくと、 H×W×M∼107の放射輝度を評価する必要がある
NeRF-family においては、radiance field をMLP (Multi-Layer Perceptron)でモデル化しているが、 1枚の画像生成のために、このMLPに対する107回のforwarding計算となる。
そのため、一般的に radiance fieldを用いたレンダリングプロセスは高コスト で、リアルタイム計算が難しい。
このような、光線毎に付随する積算した放射輝度を表現するものとして、 『Light Field』 と呼ばれるものが知られている。
入力 | 出力 | |
---|---|---|
Radiance Field (NeRF) | シーン空間の位置と方向 | 各点に付随する放射輝度と密度 |
Light Field | 光線 | 光線に付随する放射輝度 |
右図のように平行な2平面(πA, πBとよぶ) を置き、それぞれに2次元座標系((xi,yi)i=A,B) を設定しておく。 そして各光線 γ と、2平面の交点 (PAγ,PBγ) を考え、 この2交点の各2次元座標の値を集めた、4個の数値 ((xAγ,yAγ,xBγ,yBγ) where wiγ:=wi(Piγ) for w=x,y and i=A,B) を、光線座標(Lの局所座標)とする。
逆に、光線座標の値を与えると、3次元空間中に光線を1つ定める事が分かる。
光線空間Lとその上の座標を理解するために、ここでは2次元の世界(以降、シーン空間 Sと呼ぶ)を考える。この時、Lは2次元の空間をなすが、シーン空間と光線空間の間に以下の対応が存在する:
2次元シーン空間 S | ↔ | 光線空間 L |
1つの光線(=直線) | ↔ | 1点 |
特定の点を通る光線全体の集合(下図中央) | ↔ | 直線(下図右) ∗1 |
特定の点から出る光線に対し、その角度を変える | ↔ | 直線上を動く ∗∗2 |
2次元シーン空間 S
対応する光線空間 L (2次元)
1つの点オブジェクトが存在するシーンを考え、そこから出ていく光線全体についてもう少し考察する。
これまで見てきたように、Light Field は、光線を入力とし、付随する輝度を返す関数である。 これは視点情報(1点を通る光線の集まり)を入力とすると、対応するview画像(1点に集約していく輝度の集まり)を出力する、とも言えるため、実質的には
view synthesis = Light Field の計算 = Neural Light Field (NLF) の評価
と言える。
特に、未知の視点(novel view)に対して推論可能である事に対しては、
novel view synthesis がうまくいく = NLF が汎化 = 既知のviewからの正しい補間が定められる
となる。
しかし実際問題は、光線空間の背後に隠れてしまった3 次元世界の事前情報を直接活用できていない事もあり、うまい補間を定めるのは難しい、と考えられる。
※そもそもこれが上手く行くなら、(単純な view synthesis において) NeRF なんて複雑なものは要らず、直接解いてしまえばよかったはずである。
説明を簡単化するため、引き続き、2 次元シーン世界の view synthesis を考える。
このセットアップでは、シーン空間と光線空間の対応関係は以下のようになる。
オブジェクトを起点とする場合と同様、 カメラ視点から出る全ての視線(光線)の集合も、光線空間上の直線となる。 左図では、それを点線で示した。
一方で、新規の光景を推論する事は、
事に相等する(下図中央)
既知サンプルが与えられた時 (点線が既知) | 未知サンプル(光線)の輝度を推定 | 正解(ground truth) (実線が正しい輝度に対応し、他は0) |
![]() | ![]() | ![]() |
先の説明を、より現実的なケースとの対応と共に整理すると、
セットアップ | 2点のオブジェクトからなる2次元シーン空間 | 多種多様なオブジェクトが存在する3次元シーン空間 |
---|---|---|
光線空間の座標と次元 | 2つの1次元直線座標 → 2次元 | 2つの2次元平面座標 → 4次元 |
ある点を通る光線全体 | 2次元光線空間上の1次元直線 | 4次元光線空間上の2次元平面 |
光線空間上、同一オブジェクト由来の輝度の対応付け | 組み合わせがほとんどないため、簡単 | オブジェクトの表面上、似たような輝度が連続して続くため、対応付け困難 |
光線空間上、同一オブジェクト由来の視点補間 | 対応づけした2点間を通る直線を特定するだけ(余次元1) | 対応づけした複数点から平面を保管する必要がある(余次元2) |
となるが、結局、「Neural Light Field (NLF)の汎化」は、
4次元光線空間 L 中、
幾つかの2次元平面上での色分布(=画像)が(既知サンプルとして)与えられた際に、
それらとは異なる新しい2次元平面上の色分布(=新規視点の画像)を補間(=生成)する
事に他ならない。しかし、(3次元世界由来である、という)事前知識なしにこれは難しい。
これを成功させるため、論文では、次に説明するような2つの技法を提案している。
目的
お気持ち・アイディア
目的
お気持ち・アイディア
定式化
以下は、著者らのHPに掲載されている比較である。 著者らは違いを赤い枠で囲み強調しているが、正直、見た目に違いはほとんどない…
Ground Truth (Nearest) | NeRF | X-Field | NLF |
taken from https://neural-light-fields.github.io/
著者らは、本手法による視点依存性の改善を強調しており、以下のような結果を提示している。 実際、専攻研究よりも鮮明さはあるように見える。(が、view-dependenceの改善については、この可視化からは分からないように見える)
![]() | ![]() |
![]() |
|
モデル | 詳細 | データセット | 訓練時間 |
---|---|---|---|
NLF | subdivisionあり(323 resolution) | RFF, Shiny(視点に関し疎なデータセット) | 約20時間 |
NLF | subdivisionなし | Stanford(視点に関し密なデータセット) | 約10時間 |
NeRF | 各データセット | 約18時間 | |
NeX | 各データセット | 約36時間・2GPU |
B.Attal, J-B.Huang, M.Zollhöfer, J.Kopf, and C.Kim, "Learning Neural Light Fields with Ray-Space Embedding". CVPR2022 (今回の論文)
B.Mildenhall, P.P.Srinivasan, M.Tancik, J.T.Barron, R.Ramamoorthi, and R.Ng. "Nerf:Representing scenes as neural radiance fields for view synthesis". ECCV2020
M.Suhail, C.Esteves, L.Sigal, and A.Makadia, "Neural Light Field Rendering". CVPR2022 (Best paper finalist)
F.Dellaert and L.Yen-Chen, "Neural Volume Rendering: NeRF And Beyond". 2101.05204 (NeRFのサーベイ)
A.Tewari, J.Thies, B.Mildenhall, P.Srinivasan, E.Tretschk, et.al. "Advances in Neural Rendering". 2111.05849, State of the Art Report at EUROGRAPHICS 2022 (Neural renderingのレビュー)
Y.Xie, T.Takikawa, S.Saito, O.Litany, S.Yan, et.al. "Neural Fields in Visual Computing and Beyond". 2111.11426 (Neural Fieldsのレビュー)
V.Sitzmann, S.Rezchikov, W.T.Freeman, J.B.Tenenbaum, and F.Durand, "Light field networks: Neural scene representations with single-evaluation rendering". NeurIPS2021
M.Levoy and P.Hanrahan, "Light field rendering". In Proceedings of the 23rd annual conference on Computer graphics and interactive techniques, 1996
M.Tancik, P.P.Srinivasan, B.Mildenhall, S.Fridovich-Keil, and N.Raghavan el.al. "Fourier featureslet networks learn high frequency functions in low dimen-sional domains". NeurIPS2020
S.J.Garbin, M.Kowalski, M.Johnson, J.Shotton, and J.Valentin, "Fastnerf: High-fidelity neuralrendering at 200fps". ICCV2021
H.Wang, J.Ren, Z.Huang, K.Olszewski, M.Chai, Y.Fu, and S.Tulyakov, "R2L: Distilling Neural Radiance Field to Neural Light Field for Efficient Novel View Synthesis". arXiv:2203.17261[cs.CV], ECCV2022
mebiusbox, 『基礎からはじめる物理ベースレンダリング』. https://zenn.dev/mebiusbox/books/619c81d2fbeafd, 2021
山内, 『三次元空間のニューラルな表現とNeRF』. ALBERT Official Blog, https://blog.albert2005.co.jp/2020/05/08/nerf/, 2020
金谷, 菅谷, 金澤, 『3次元コンピュータビジョン計算ハンドブック』. 森北出版, 2016
加藤, 『微分可能レンダリング』. https://speakerdeck.com/hkato/wei-fen-ke-neng-rendaringu-cvimyan-jiu-hui-tiyutoriaru, CVIM&PRMU研究会チュートリアル, 2022