This thesis constructs a multi-functional personal information recognition system based on speech technology, utilizing varieties of acoustic features and a statistical model. The goal of the thesis is recognizing diversified personal information not textual content through voice, including: personal identity, genders, four age-groups (child, young, adult, elderly), language and four emotions (anger, sadness, happiness, neutrality), and using these information to design feasible applications, as: an automatic personal information login system; a retrieval system for shopping information on international traditional clothing. In this thesis, since individual recognition system has their distinct identification requirements, we select different suitable acoustic features like: pitch, MFCC, RASTA-PLP, LPCC, energy and their dynamic features. A statistical model of Gaussian Mixture Model (GMM) was used as an effective tool for data modeling and pattern classification in this thesis, aims to model the probability density function of those feature vectors, by the weighted combination of multivariate Gaussian densities. All experimental results show that we can effectively determine the diversity personal information just via voice means. Related practical applications can also express satisfactory performance, designed as a means of HCI for users. And also demonstrates that each recognition system achieves high accuracy, due to their selecting individual suitable acoustic features.
본 논문에서는 음성특징과 음성통계모델을 이용한 음성기술을 기반으로 다양한 개인정보인식시스템을 구현하였다. 본 논문의 목적은 음성인식을 통하여 텍스트가 아닌 다양한 개인정보를 인식하는 것이다. 개인정보에는 신분, 성별, 연령, 어종, 감정 등이 있다. 연령은 유년, 청년, 성년, 장년 등으로 구분되며 감정은 화남, 슬픔, 기쁨, 중립 등으로 구분된다. 또한 이러한 정보를 이용하여 실용적인 응용시스템을 구현하였다. 예를 들면, 자동 개인정보등록시스템, 국제 전통의상 쇼핑정보 검색시스템이다. 본 논문에서는 각 인식시스템에서 필요한 요구에 따라 다양한 음성특징(Pitch, MFCC, RASTA-PLP, LPCC, Energy 및 대응하는 다이나믹 특징)들을 사용하였다.논문에서 사용한 GMM통계모델은 데이터모델링과 패턴 인식을 위한 효과적인 알고리즘으로 사용되었다. 모든 실험결과로부터 음성만으로도 다양한 개인정보를 효과적으로 인식할 수 있음을 증명하였다. 관련된 실용적인 응용시스템은 휴먼 컴퓨터 인터랙션에서 보다 효과적인 시스템성능을 보였다.