The conventional dialogue system generates responses based on dialogue history. However, this straightforward method risks generating inaccurate or inappropriate information. To address this, the Document Grounded Dialogue System (DGDS) has been introduced. This framework for Document Grounded Dialogue Systems generates responses using documents that are relevant to the dialogue history. Various studies have been conducted on using the encoder decoder architecture to effectively utilize retrieved documents such as Fusion in Decoder (FiD). However, these methods have some limitations: 1) They are time-consuming as they require encoding both the query and the retrieved documents. 2) While Fusion-in-Decoder has shown promising results in opendomain QA, it has not demonstrated improved outcomes in goal-oriented dialogue systems. To address these limitations, I propose a retrieved-augmented language model trained with a decoupled encoder and decoder. Additionally, I overcome the limitations of Fusion in Decoder (FiD) by using soft tokens. I have verified that my method, which employs soft-tokens, enhances the performance of response generation without increasing inference time, thanks to the decoupled encoder and decoder.
전통적인 대화 시스템은 대화 히스토리에 의존해 응답을 생성한다. 이러한 간단한 추론은 정확하지 않은 정보를 생성할 수 있는 위험성이 있다. 이를 해결하기 위해 문서 그라운딩된 대화 시스템이 도입되었다. 문서 그라운딩된 대화 시스템 프레임워크는 대화와 연관된 문서에 기반해 응답을 생성하는 프레임워크를 가지고 있다. 이러한 프레임워크에 기반해 검색된 문서를 효울적으로 사용하고자 하는 다양한 인코더-디코더 구조를 사용하는 연구가 수행되고 있다. 또한 FiD를 통한 응답 생성 성능의 향상을 보였다. 그러나 이러한 접근법은 몇가지 한계가 있다. 1) 질의와 검색된 문서 모두를 인코딩하기 때문에 추론 시간이 길다는 한계 2) FiD가 open domain QA에 우수한 성능을 보였지만 목적 지향 대화 시스템에서는 향상된 성능을 보이지 못한다는 한계. 이를 해결하기 위해 우리는 인코더와 디코더를 분리해 학습한 검색 증강형 언어모델을 제안하였다. 또한 우리는 소프트 토큰이 응답 생성 성능을 향상 시킬 수 있다는 것을 확인하였고, 인코더와 디코더를 분리함에 따라 추론 시간이 증가되지 않은 것을 확인하였다.