A typical person re-identification (Re-ID) system works by taking person image as a query to find the most similar person among the images inside the gallery. From this, the system's performance depends heavily on the quality of the query image. We see the hint to overcome this limitation in recent surprising progress in multi-modal learning between vision and language. In this context, this paper proposes a person re-identification method that utilizes text guidance via the Contrastive Language-Image Pre-training (CLIP). To fully utilize CLIP, we show how to transfer their knowledge to person Re-ID network. Experimental results prove the superior performance of our method on person Re-ID.
일반적인 사람 재인식 시스템은 갤러리 내부의 이미지 중 타겟이 되는 사람을 찾기 위해 이미지를 질의로 취하는 방식으로 동작한다. 따라서 시스템의 성능은 질의 이미지의 품질에 크게 좌우되는 경향이 있다. 최근 화두가 되는 Multi-modal 학습은 이러한 한계점을 극복할 수 있는 힌트를 제공해준다. 본 논문에서는 CLIP을 통해 텍스트를 활용할 수 있는 사람 재인식 방법을 제안한다. CLIP을 완전히 활용하기 위해, 논문에서는 CLIP이 지닌 지식을 사람 재인식 네트워크로 전달하는 방법을 보여준다. 실험 결과는 사람 재인식에서 제안하는 방법의 우수한 성능을 증명한다.