Music Information Retrieval (MIR) has increasingly attracted attention due to the growth in digital music. Most common approaches use content-based music melody information. Content-based approaches, which rely on signal processing techniques to represent the acoustic characteristics of pieces of music, have been used in MIR for some time. They are used for retrieval tasks. However, music is not only defined by acoustic characteristics. It may, and sometimes to a large degree, depend on contents in terms of lyrics. A song's lyrics provide more information on which to search. Searches may be more representative of specific musical genres than the acoustic content. Therefore, we proposed a novel MIR system that utilizes the user’s acoustic signal from the singing voice and retrieves the musical information using both lyrics and melody information. The lyric recognition module uses a keyword detection system based on the textual content of the lyrics using the HMM comparison engine. The melody recognition module extracts pitch and MFCC features from the user’s sung input. Then, it used the GMM comparison engine to retrieve music. Consequently, the proposed MIR system fuses the lyrics and melody recognition module. Melody recognition operates to restrict the recognition candidates in particular. Experiments show that the proposed MIR system has a recognition rate of 72.72% ~ 83.64% when the numbers of restricted recognition candidates are between 10 and 50.
음악 데이터는 노래의 음성학적 특징과 가사 정보를 포함하고 있는 다중적 특징을 내포하고 있다. 최근에는 멜로디 정보만 이용하여 노래를 검색하는 연구는 많이 진행되고 있으나, 가사를 이용한 연구는 크게 활용되고 있지 않은 상태이다. 이에 본 논문에서는 새로운 MIR (Music Information Retrieval) 시스템을 제안한다. 제안한 시스템은 사용자가 부른 노래의 음성신호를 이용하여 노래의 멜로디 특징과 가사 특징을 추출하고 추출된 멜로디 특징과 가사 특징을 이용하여 노래를 검색하는 멀티모달 시스템이다. 가사인식 모듈은 가사의 텍스트 콘텐츠와 HMM 기반의 키워드 인식 시스템을 이용하고, 멜로디인식 모듈은 사용자가 입력한 노래에서 피치와 MFCC 특징을 추출하고 GMM 분류기를 이용하여 노래를 인식한다. 이와 같이 제안한 MIR 시스템은 가사 인식 모듈과 멜로디인식 모듈을 통합한 멀티모달 인식 시스템이다. 이는 멜로디인식 모듈의 인식결과를 기반으로 전체적인 인식 후보를 제한하고, 가사인식 모듈에서 제한된 후보만을 이용하여 음악 검색을 수행한다. 실험으로부터 본 논문에서 제안한 MIR 시스템은 10개의 후보데이터를 사용하였을 경우에 72.72%의 인식률을 보였고, 후보데이터가 50개까지 증가하였을 경우에 최대 83.64%의 인식률을 보였다.