레퍼런스 & 공부자료

[논문 리뷰] StereoCrafter: Diffusion-based Generation of Long and High-fidelityStereoscopic 3D from Monocular Videos

스튜디오 오버그래픽스 2025. 5. 16. 12:03

https://arxiv.org/abs/2409.07447

 

StereoCrafter: Diffusion-based Generation of Long and High-fidelity Stereoscopic 3D from Monocular Videos

This paper presents a novel framework for converting 2D videos to immersive stereoscopic 3D, addressing the growing demand for 3D content in immersive experience. Leveraging foundation models as priors, our approach overcomes the limitations of traditional

arxiv.org

 

 

 

 

초록

작년말 텐센트 AI랩에서 발표한 입체 영상 변환 AI 프레임워크.

기존 Mono 영상 이미지만을 가지고 AI를 활용해 Stereo 영상으로 변환,생성하여 VR 디바이스에서 입체감있게 볼 수  있는 영상 컨텐츠를 생성하는 과정.

이 프레임 워크는 2D to 3D 비디오 변환에서 상당한 개선을 보여주며 Apple Vision Pro 및 3D 디스플레이와 같은 3D 장치를 위한 몰입형 컨텐츠를 만드는 실용적인 솔루션을 제공.

Depth 기반 비디오 Splatting과  Stereo 비디오 Inpainting으로 총 2개의 주요 과정으로 이루어짐.

 

서론

인터넷상의 상당한 양의 미디어들은 단안이며 3D 영상 컨텐츠 공급이 부족하다.

기존 2D to 3D 변환 과정은 제한된 훈련 데이터와 CNN 모델 용량으로 인해 흐릿한 결과를 생성하며 이는 실제 사용과는 거리가 있었다.

최근 NeRF 및 3D Gaussian Splatting과 같은 3D 표현 방식이 생기며 고품질 결과가 나오기 시작했다.

그러나 이러한 방법도 동적 객체, 카메라 움직임이나 안개와 불과 같은 시각 효과를 나타내는 비디오의 경우 장면을 재구성 하는데 어려움이 있기 때문에 현실적인 솔루션이 아니다.

Foundation Model을 이용한 개선된 뎁스 추론과 Diffusion Model을 이용한 인페인팅을 활용하여 이 문제를 해결하고자 한다.

따라서 Foundation Model을 prior로 활용하여 실용적인 프레임워크를 제시한다.

 

먼저, 깊이 추정 방법을 사용하여 입력 비디오의 뎁스 맵을 얻는다.

이 뎁스 맵을 활용하여 깊이 기반 splatting 방법을 통해 입력 비디오를 왼쪽 뷰에서 오른쪽 뷰로 워프하고 동시에 occlusion mask를 생성한다.

그 후 워프된 비디오와 해당 occlusion mask를 기반으로 스테레오 비디오 inpainting 방법을 사용하여 최종 오른쪽 뷰 비디오를 생성한다.

 

2D-to3D Video Conversion 비교

이전에 있던 다른 뎁스맵 추출 모델과의 비교.(Deep3D : 기존 구형 2D to 3D 비디오 변환 방법(9년전 깃헙), 나머지는 비교적 최근)

DepthCrafter의 품질이 비교적 더 정교하고 뛰어나다.

DepthCrafter에서 예측한 시간적으로 더 일관성 있는 비디오 깊이를 통해 훨씬 더 나은 결과물을 얻어낸다.

 

이전 Inpainting 모델들과의 비교.

Inpainting 모델은 가려진 영역에서 흐릿한 콘텐츠를 생성하는 문제가 있었다.

또한 종종 가려져있지 않았던 영역에서도 심각한 이미지 품질 문제에 직면하기도 한다.

반면 이 모델은 가려진 영역에서 높은 일관성을 유지하면서 좋은 결과를 나타낸다.