의도 탐지는 대화시스템에서 사용자의 발화 의도를 파악하는 중요한 과제이다. 또한 사건 탐지는 뉴스 기사, 소셜 미디어 게시물, 보고서 등의 수많은 텍스트에 특정 시간, 장소, 사람 등 육하원칙이 포함된 문장에서 실제 사건을 식별하는 중요한 과제이다. 언어모델의 발전에 따라, 언어모델을 활용한 의도와 사건 탐지에 대한 연구가 활발하게 진행되고 있으며, 오픈 도메인(Open-domain)에서 활용하기 위해 언어모델로 임베딩(Embedding)한 벡터 값 간의 유사도를 활용하여 의도 및 사건을 탐지하는 방법이 사용되고 있다. 하지만 일반적인 임베딩 모델을 활용한 문장 유사도 분석은 문장 내의 핵심어 정보에 치우친 분석을 하기 때문에, 문장 전체의 의미 파악이 필요한 의도 및 사건 탐지에 적합하지 않다. 본 논문에서는 문장의 주요핵심어로 사용되는 개체보다 문장 전체의 의미를 결정하는 서술어를 중심으로 임베딩 하는 것이 중요하다는 것에 착안하여, 개체명 인식(NER)과 개체관계(RE) 데이터셋을 활용하여, 개체 정보보다 서술어를 집중하여 임베딩 할 수 있는 대조학습 학습 데이터셋을 구축하고, 기존 문장 임베딩 모델에 적응학습을 하는 방안을 제안한다. 또한 제안하는 모델인 SBERT-PRO (PRedicate Oriented)가 공개된 문장 임베딩 모델보다 우수한 성능을 보이는 것을 입증한다.
Intent detection is a crucial task in conversational systems for understanding user intentions. Additionally, event detection is vital for identifying important events within various texts, including news articles, social media posts, and reports. Among diverse approaches, the sentence embedding similarity-based method has been widely adopted to solve open-domain classification tasks. However, conventional embedding models tend to focus on specific keywords within a sentence and are not suitable for tasks that require a high-level semantic understanding of a sentence as opposed to a narrow focus on specific details within a sentence. This limitation becomes particularly evident in tasks such as intent detection, which requires a broader understanding of the intention of a sentence, and event detection, which requires an emphasis on actual events within a sentence. In this paper, we construct a training dataset suitable for intent and event detection using entity attribute information and entity relation information. Our approach is inspired by the significance of emphasizing the embedding of predicates, which unfold the content of a sentence, as opposed to focusing on entity attributes within a sentence. Furthermore, we suggest an adaptive learning strategy for the existing sentence embedding model and demonstrate that our proposed model, SBERT-PRO (PRedicate Oriented), outperforms conventional models