자연어처리 분야중 하나인 질문-답변은 인공지능 알고리즘이 질문에 대한 답변이 될 수 있는 단어를 문단에서 찾아 제시해 주는 대표적인 기계독해 작업이다. 질문-답변은 대규모 말뭉치로 언어모델을 비지도 사전학습 시킨 후 미세조정 하는 전이학습의 등장으로 최근 많은 발전이 있었다. 그러나 미세조정을 위한 질문-답변 데이터 셋은 상당한 인적 노력이 필요하며,따라서 현재 질문-답변 데이터 셋의 크기는 비지도 학습에 사용할 수 있는데이터 보다 훨씬 작아 모델의 성능을 제한한다. 이 문제를 해결하기 위해,본 연구에서는 답변 생성, 질문 생성, 데이터 검증으로 구성된 합성 데이터생성모델을 제안하고, 생성된 합성 데이터를 정성, 정량적으로 평가한다.본 연구의 딥러닝 모델과 데이터 검증기법을 사용한 합성 데이터 생성 방법으로 만들어진 합성 데이터를 한국어 질문-답변 벤치마크 데이터 셋인KorQuAD데이터와 같이 사용하여 기존 KorQuAD 데이터만 사용했던 모델보다 성능을 최고 1.13(f1 score)포인트 향상시켰고, 특정모델에서는 합성 데이터만 사용하여 미세조정 시킨 모델이 KorQuAD 데이터로 학습시킨 모델보다 0.23(f1 score)포인트 향상된 성능을 보였다. 이러한 결과는 합성 데이터가 인간생성 데이터의 품질에 근사하다는 것을 나타낸다. 또한, 다른 말뭉치를 사용하여 더 많은 합성 데이터를 생성하고 이를 사용해 모델의 성능을더 향상시키는 것을 기대할 수 있다.
A discipline within the fields of natural language processing (NLP),Question-Answering (QA) is well-known as machine readingcomprehension, which allows artificial intelligence algorithm to find andsuggest the context to answer the question. Emerging transfer learningtechnique doing an unsupervised pretraining and fine-tuning of languagemodel on large corpus attributes to develop the QA. However, the QAdata set for fine-tuning takes enormous human efforts. As the currentQA data set size is much smaller than data leveraging for unsupervisedlearning, it drives to limit its performance. In order to address thischallenge, this study suggests synthetic data generative model includinganswer generation, question generation and data verification, andevaluates qualitatively and quantitatively the generated synthetic data.The study suggests the way to generate synthetic data and showsthat when the synthetic data is used with the Korean QA benchmarkdata set KorQuAD data, the performance increased by 1.13(f1 score)points compared to when existing KorQuAD data is only used. Inspecific model, the model doing fine-tuning on with only the syntheticdata performed better than the model applying KorQuAD. These resultsrepresent that the synthetic data generated in the study is closer to thequality of human generative data. In addition, it is expectable that itleads to generate more synthetic data using other corpus and enhancethe model’s performance.