데이터 증강(Data Augmentation)의 목적은 기존 데이터 세트에 대한 성능의 향상도 있지만, 도메인 일반화에 대한 성능도 포함하고 있다. 최근 데이터 증강에 대한 연구들은 적은 학습 샘플을 가지고 동일한 데이터 세트의 성능을 증진시키는데 초점을 맞췄다. 본 연구에서는 저 자원환경에서 데이터의 다양성을 확보하고 모델의 일반화 성능을 향상 시키는 데이터 증강 방법인 외부 데이터를 활용한 수도 레이블링(Out Of Domain – Pseudo Labeling, OOD-PL) 방법을 제안한다. 제안하는 방법은 외부 데이터를 가져와 학습 데이터 샘플과의 Sentence BERT 를 통해 의미론적 유사도를 계산하고 이를 바탕으로 수도 레이블을 부여한다. 외부 데이터를 학습하기 전에 기존의 데이터에 대한 충분한 학습을 보장하기 위해 조기 종료(early stopping) 시점 부터 OOD-PL 을 적용하는 방법과, 유사도를 기반으로 점진적으로 다양한 데이터를 학습할 수 있는 커리큘럼 방식으로 외부 데이터를 활용하는 성능을 높인다. 제안하는 방법을 평가하기 위해 동일한 작업을 수행하지만 다른 도메인을 가지고 있는 세 가지 데이터 세트에 대해서 도메인 일반화에 대한 성능 향상을 보였다. 실험을 통하여 경험적 위험에 대한 분석을 통해 제안된 방법이 특정 도메인에 특화되지 않고 다양한 도메인에 적용될 수 있음을 보이고, 저 자원 환경에서 발생하는 허위 상관관계를 완화 하는데 효과가 있음을 실험적으로 보인다.
The goal of data augmentation is to improve performance on existing data sets, but it also includes performance on domain generalizations. Recent research on data augmentation has focused on improving performance on the same dataset with fewer training samples. In this study, we propose an Out Of Domain - Pseudo Labeling (OOD-PL) method using external data, which is a data augmentation method that secures data diversity and improves model generalization performance in lowresource environments. The proposed method obtains external data, calculates the semantic similarity through Sentence BERT with training data samples, and assigns pseudo labels based on it. The proposed method enhances the model's performance by utilizing external data by applying OOD-PL from the point of early stopping, ensuring that the model is sufficiently trained on existing data before incorporating external data, and by using a curriculum method that can gradually learn various data based on similarity. To evaluate the proposed method, we show the performance improvement on domain generalization on three datasets that perform the same task but have different domains. Through an analysis of empirical risk, we show that the proposed method is not domain-specific and can be applied to a variety of domains, and experimentally show that it is effective in mitigating spurious correlations in low-resource environments.