View Synthesis
테이블에 커피가 반 들어간 유리를 놓은 후 카메라의 위치와 각도를 변경하여 여러 장의 사진을 찍습니다.
사진을 찍은 후 테이블과 커피 컵을 모두 제거합니다.
그 후, 제거하기 전의 모습을 본 적이 없는 사람에게 사진만을 보여주고, 사진 속의 테이블 위에 커피 컵이 놓인 모습을 기억해 보도록 부탁한다고 생각해 봅시다.
2~3장 정도라면 부족하겠지만, 다른 각도에서 찍은 충분한 양의 사진을 본 후라면, 마치 눈앞에 있는 것처럼 선명하게 기억하는 것도 어렵지 않습니다.
바라보는 각도를 천천히 움직이면, 표면에 반사된 조명이 빛나는 모습, 반투명해 보이는 커피 컵의 바닥의 색조가 서서히 얇게 바뀌는 모습도 떠올릴 수 있을 것입니다.
정확히 어떤 특정 각도로 찍은 사진을 본 적이 없어도 그 각도에서 어떻게 보이는 것이 당연하고 자연스러운지 늦게 추측할 수 있습니다.
그렇다면 상상의 카테고리를 넘어 새로운 각도로 찍은 것처럼 보이는 이미지를 얻고 싶다면 어떤 방법이 있습니까?
이와 같이 하나의 공간을 다양한 각도로부터 촬영한 화상을 복수매에 기초하여 그 공간을 어떤 각도에서 본 새로운 View를 합성하는 과제를 View Synthesis라고 합니다.
이 기사에서 소개하고 싶은 NeRF도 View Synthesis를 위해 제안된 모델입니다.
NeRF 이전에도 View Synthesis를 위한 다양한 방법이 제시되어 왔다.
그러나 충분한 품질의 결과를 얻는 데 어려움을 겪고 NeRF에 도달 실제 사진에 가까운 정확도와 현실을 얻을 수 있습니다.
NeRF(Neural Radiance Field)
NeRF는 3차원 공간의 1개의 위치(x, y, z)와 그 점을 보는 방향(θ, φ)마다 1개의 색(RGB), 밀도(σ)를 가진다는 생각에서 출발합니다.
같은 위치의 지점에서도 보이는 방향에 따라 다른 색을 가질 수 있으며, 밀도는 한 점이 갖는 일종의 불투명도를 가리킵니다.
밀도는 한 점의 색이 최종 색에 반영되는 정도를 결정하는 값으로, 위치가 같은 경우 보는 방향에 관계없이 일정일본입니다.
이것은 하나의 정적 공간을 위치와 방향 (x, y, z, θ, φ)를 입력하면 1색과 밀도(RGBσ) 반환 5차원 함수로 표현할 수 있습니다.
NeRF는 하나의 네트워크를 이 5차원 함수에 근사하도록 학습하고, 임의의 카메라 위치와 각도가 주어질 때 이미지의 각 픽셀이 어떤 색상 값을 가지는지를 계산하는 데 사용됩니다.
합니다.
Rendering Procedure
NeRF가 임의의 포인트에서 본 하나의 뷰를 렌더링하면, 1픽셀 색상의 값은 카메라 렌즈에 들어가는 직선상의 점의 색상을 누적함으로써 결정됩니다.
NeRF는 광선의 점을 샘플링하고 각 점의 위치와 일직선 각도에서 네트워크 출력 값을 계산합니다.
광선의 해당 점의 색과 밀도를 가져옵니다.
각 점의 색은 그 점의 밀도와 투과도만큼 누적됩니다.
밀도는 그 점의 고유값이며, 카메라 위치에서 그 점까지의 누적 밀도가 높을수록 투과율은 0에 가깝습니다.
즉 (1) 한 점의 밀도가 높고 불투명하다 (2) 포인트와 카메라 사이의 포인트 밀도가 낮고 투과율이 높을수록 색상이 픽셀에 많이 반영되어 있다고 할 수 있습니다.
네트워크는 이와 같이 렌더링된 픽셀의 색과 실제 뷰의 픽셀의 색의 차이를 줄이는 방향으로 학습됩니다.
NeRF 기반 Novel View Synthesis
NeRF는 간결한 아이디어와 좋은 성능으로 처음 공개된 직후 큰 반향을 일으켰습니다.
뒤로 많은 후속 논문이 계속되고 있으며, 지금도 다양한 방향의 연구가 진행되고 있다.
표현의 디테일과 전반적인 퍼포먼스는 물론, 학습 속도와 렌더링 속도도 몇 가지 테크닉을 통해 크게 향상되고, 그 밖에도 실용을 고려한 흥미로운 연구 테마가 존재합니다.
NeRF계 모델의 발전을 앞으로도 기대할 수 있는 이유입니다.
참고 자료
(1) NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis https://arxiv.org/abs/2003.08934
(2) NeRF in the Dark: High Dynamic Range View Synthesis from Noisy Raw Images https://arxiv.org/abs/2111.13679
(3) NeRF: Neural Radiance Field in 3D Vision, A Comprehensive Review https://arxiv.org/abs/2210.0037