최근 시각-언어 다중 모달 모델에 대한 연구가 활발하게 이루어져 왔다. 이러한 다중 모달 모델을 다양한 노이즈가 있는 실생활에 활용하기 위해서는 분포 이동(distribution shift) 상황에서도 강건해야 한다. 이를 달성하기 위한 한가지 방법으로데이터 증강 기법이 있다. 그러나 대표적인 시각-언어 데이터 증강 기법인 MixGen은 실제 상황을 가정해 교란(perturbation) 기법을 가한 데이터로 평가할 경우 큰성능 하락을 보였다. 정량, 정성 분석을 통해 확인한 결과, 이는 MixGen으로 증강된데이터로 학습된 모델이 가짜 상관관계(spurious correlation)에 의존하기 때문으로밝혀졌다. 따라서 우리는 이러한 문제를 극복하기 위해 이미지-텍스트 내의 object를고려하여 데이터를 증강하는 RobustMixGen을 제안한다. 사전에 object 클래스와배경 클래스를 나누는 방식을 도입했으며, 이미지 합성 방법으로 CutMixUp, 텍스트합성 방법으로 Conjunction Concat을 사용하였다. 본 데이터 증강 기법을 이용하면 이미지-텍스트 간의 시맨틱(semantic)한 관계를 최대한 보존하며 가짜 상관관계(spurious correlation)를 완화하였다. 제안하는 RobustMixGen는 retrieval 과업에서성능 향상을 이루었으며, 분포 이동 상황에서 교란 기법을 가하여도 강건한 성능을보이며 강건한 데이터 증강 기법임을 실험적으로 입증하였다.
In recent years, research on multimodal models has grown, aiming to applythem in real-world scenarios with diverse noise sources, requiring robustness todistributional shifts through data augmentation. However, MixGen, an existingvision-language augmentation method, exhibits significant performance declinein real-world perturbed environments. Analyses attribute this decline to modelstrained with MixGen augmented data relying on spurious correlations. Addressingthese challenges, this paper introduces RobustMixGen, a novel data augmentation method. It incorporates a pre-classification module for object and backgroundclasses and employs CutMixUp for image synthesis and Conjunction Concat fortext synthesis to mitigate the impact of spurious correlations. Empirical experiments confirm RobustMixGen as a robust data augmentation technique, enhancing retrieval task performance and demonstrating resilience to distributional shiftperturbations.