애플 연구진은 2D 이미지로부터 3D 깊이를 추정하는 '뎁스 프로(Depth Pro)'라는 단안 깊이 추정 모델을 개발했습니다. 기존 방법은 여러 이미지나 메타 데이터가 필요했지만, 뎁스 프로는 상대적, 절대적 깊이를 메타 데이터 없이 추정할 수 있습니다. 이 기술은 증강현실(AR) 및 자율주행과 같은 다양한 산업에서 활용 가능하며, 깊이 맵(depth map)을 통해 가상 객체를 물리적 공간에 정확히 배치하는 데 필수적입니다.
특히 제로샷 학습 환경에서 훈련 없이도 정확한 예측을 할 수 있어 훈련 비용과 시간을 절감할 수 있습니다. 또한, 표준 GPU에서 0.3초 만에 225만 화소의 고해상도 깊이 맵을 생성하며, 머리카락처럼 미세한 디테일까지 감지할 수 있습니다. 연구진은 다중 스케일 비전 트랜스포머를 활용해 이미지의 전반적인 맥락과 세부 사항을 동시에 처리할 수 있다고 설명했습니다.
뎁스 프로는 깊이 추정에서 가장 어려운 문제 중 하나인 '떠다니는 픽셀(flying pixels)' 문제를 해결했으며, 이는 깊이 맵핑 오류로 인해 픽셀이 공중에 떠 있는 것처럼 보이는 현상을 말합니다. 경계 추적 성능도 우수하여, 전경과 배경의 경계를 명확히 구분합니다. 이는 이미지 매팅(matting)이나 정밀한 객체 분할이 필요한 의료 영상 등에서도 유용하게 쓰일 수 있습니다.
연구진은 뎁스 프로의 범용성이 다양한 산업에 적용 가능할 것이라고 예상했습니다. 예를 들어, 사용자가 휴대폰 카메라로 방을 비췄을 때, 가구가 집에 어떻게 어울릴지를 미리 볼 수 있으며, 자율주행 산업에서는 단일 카메라로 실시간 고해상도 깊이 맵을 생성해 차량이 주변 환경을 더욱 정확하게 인식하도록 합니다. 이 기술은 산업 전반에서 깊이 추정의 혁신적인 발전을 이끌 것으로 기대됩니다.
Q1: 뎁스 프로 기술이 기존 깊이 추정 방법보다 차별화된 점은 무엇이며, 이를 통해 어떤 응용 프로그램에서 혁신을 가져올 수 있을까요?
Q2: 제로샷 학습 환경에서 특정 도메인 데이터셋 없이도 깊이 추정을 가능하게 한 뎁스 프로 기술이, 다른 산업의 인공지능(AI) 기술 개발에도 어떤 영향을 미칠 수 있을까요?
Q3: 단일 카메라로 고해상도 깊이 맵을 생성하는 기술이 자율주행 외에 다른 산업 또는 일상 생활에서 어떻게 적용될 수 있을까요?