정밀의학의 기반으로, 임상연구에서 유전자-질병 상관관계를 밝히는 것은 매우 중요하다. 하지만, 대부분의 유전자-질병 상관관계 정보는 의생물학 문헌에 텍스트 형태로 담겨있다. 이에 우리는 퇴행성 뇌 질환 도메인을 대상으로 하는 딥러닝 기반의 유전자-질병 상관관계 예측 모델을 소개하고자 한다. 본 논문에서는 의생물학 문헌에서 후보 유전자-질병 상관관계를 추출하고, 유전자와 질병의 상관관계에 대한 예측이 가능한 딥러닝 모델을 제안한다. 기존 방법들은 도메인 전문가에 의한 특징 생성이 필요하지만, 특징 추출 방법인 워드 임베딩은 텍스트에서 자동으로 특징을 추출하고, 단어에 의미론적 벡터를 생성한다. 유전자-질병 상관관계를 포함하는 문장 식별을 위해 워드 임베딩 기법을 사용하여 단어에 대한 분산 표현을 학습하였다. 워드 임베딩 학습을 위하여 PubMed 문헌 혹은 Google News 문헌을 사용하였으며, Bidirectional Gated Recurrent Unit(BiGRU) 네트워크를 사용하여 딥러닝 모델을 개발하였다. 개발한 모델의 학습을 위하여 유전자-질병 상관관계 문장 데이터 세트를 OMIM 데이터베이스에 근거하여 구성하였으며, 이는 각 45,523개의 True와 False 문장 데이터 세트를 포함한다. 제안 모델은 BioWordVec과 Google News 워드 임베딩에 대해 각 0.96, 0.91의 적합도를 보였다.
The identification of gene-disease correlations is very important in clinical research as it serves as a basis of precision medicine. However, most of the gene-disease correlation data are buried in the biomedical literature in textual form. We propose a deep learning-based model for predicting gene-disease correlations using word embedding, which is applied to the neurodegenerative disease domain. In this study, we describe a deep learning model which extracts a candidate gene-disease correlation from the biomedical text and predicts whether or not the candidate gene is correlated with the disease. As a feature extraction method, word2vec automatically extracts features from text and creates vector representations of words (known as word embeddings), while classical methods require handcrafted features from domain experts. To identify sentences that include the gene-disease correlations, we used a word embedding method to learn distributed representations for words. We developed a deep learning model using Bidirectional Gated Recurrent Unit (BiGRU) networks and the word embeddings that are pre-trained on PubMed abstracts or Google News articles. We collected gene-disease correlation sentence dataset using the Online Mendelian Inheritance In Man (OMIM) database and obtained 45,523 sentences for each of the positive and negative training datasets. Our method performed with the accuracy rates of 0.96 and 0.91 for the BioWordVec and Google News word embedding sources, respectively.