소실점(vanishing point)은 3차원 세상에서 평행한 선들이 이미지 상에서 만 나는 지점을 의미한다. 소실점 정보는 2차원 이미지에서 3차원 정보를 추론하는데 필수적인 정보를 담고 있어 소실점 검출 작업은 컴퓨터 비전 분야에서 중요하고 전통적인 연구주제이다. 본 논문에서는 한 이미지에 존재하는 선분 정보와 학습 가능한 쿼리를 이용해 소실점을 추정하는 딥러닝 모델을 제안한다. 우리는 인공 환경에서 대부분의 구조물이 세계 좌표계의 주요한 직교 방향으로 설계되었다는 맨하탄 가정을 전제로 소실점을 추정하고 이미지에 존재하는 선분들을 소실점 방향으로 분류한다. 제안하는 방법이 소실점 추정과 선분 분류 작업에 있어 강력한 방법임을 시각화 자료를 통해 보인다.또한 본논문에서 제안하는 네트워크를 통해 두 이미지 간의 상대적인 회전을 구하는 어플리케이션을 추가로 제안함으로서 본 논문에서 제안하는 딥러닝 모델이 SLAM, 3D 재구성 등 다양한 컴퓨터 비전 분야에 응용될 수 있음을 보인다. 제안하는 방법을 이용하여 소실점을 추정하고 선분을 소실점 방향으로 분류할 수 있음을 보인다. 또한, 이를 일치시켜 두 영상 사이의 상대적인 위치를 추정하는 방법이 기존에 존재하는 상대적인 위치를 추정하는 모델들보다 정량적인 지표가 상승하였음을 보인다.
The vanishing point refers to the location on an image where parallellines from a three-dimensional world converge. The information from thevanishing point is crucial in inferring three-dimensional information froma two-dimensional image, making the task of vanishing point detection asignificant and traditional research topic in the field of computer vision. Inthis paper, we propose a deep learning model that estimates the vanishingpoint using line segment information present in an image and a trainablequery. We base our vanishing point estimation on the Manhattan assumption,which posits that most line segments in an artificial environment alignwith the primary orthogonal directions of the world coordinate system.Consequently, we classify the line segments present in the image in thedirection of the vanishing point. Through visual evidence, we demonstratethe effectiveness of our proposed method in vanishing point estimation andline segment classification tasks. Moreover, we introduce an applicationthrough our proposed network to determine the relative rotation betweentwo images, showcasing the potential applicability of our deep learningmodel in various computer vision fields like SLAM and 3D reconstruction.We demonstrate the ability to estimate the vanishing point and classify linesegments in the direction of the vanishing point using our proposed method.Additionally, by matching these, we show that our method for estimatingthe relative position between two images outperforms existing models inquantitative metrics.