딥러닝 기술의 지속적인 발전을 통해 음성 데이터에 대한 이해와 음성 처리 분야에서의 성능은 향상되고 있다. 음성데이터를 다루는 분야 중 하나인 음성인식 과제는 이미지 처리에서 주로 사용되는 CNN의 구조와 자연어 처리에서 주로 RNN의 모형을 활용하여 실행된다. 그러나, 이러한 음성인식의 모형은 학습데이터에서의 모델 성능과 외부의 테스트 데이터에서의 모델 성능에 차이가 발생함에 따라 일반화가 어려운 점을 발견할 수 있다. 따라서 본 논문에서는 한국어 음성인식 학습 시의 강건성 확보를 입증하기 위하여 Reconstruction Loss가 적용된 JASPER-GRU 모형을 제안한다. 일반적인 음성인식의 모형학습에 사용되는 CTC Loss 뿐만이 아니라, JASPER 모형의 아웃풋 시퀀스를 복제하여, 하나의 시퀀스의 일부를 특정한 값으로 변환하여 학습을 진행한다. 이 두 시퀀스는 순환신경망을 통과하여 시간축에 대해 변환이 이루어진 값에 대한 정답을 맞추는 Reconstruction loss를 줄여나가며 일반화 성능을 보정한다. 학습에 사용된 데이터셋은 한국어 상담음성 데이터셋과 자유발화 데이터셋인 KsponSpeech 데이터셋을 사용하여 실험하였다. 모델의 일반화 성능을 평가하기 위해 학습데이터와는 다른 데이터셋을 활용하여 평가하거나 노이즈를 추가하여 실제와 유사한 환경에서 실험을 진행하였다. 음성인식 혹은 이미지 데이터처리에서 주로 사용되는 모델과 성능을 비교하였고, 비교군 대비 최대 약 26% 의 낮은 CER 지표를 얻을 수 있음을 입증하였다.
The continuous development in deep learning technology has led to improved understanding and performance in the field of audio data processing. One task that deals with audio data is speech recognition, which traditionally utilizes the structure of Convolutional Neural Networks (CNNs) from image processing and Recurrent Neural Network (RNN) models from natural language processing. However, these speech recognition models often face challenges in generalization due to the performance disparity between training data and external test data. Therefore, this paper proposes the JASPER-GRU model with the application of Reconstruction Loss to demonstrate robustness in Korean speech recognition training. Unlike the typical CTC Loss used in speech recognition model training, this approach involves duplicating the output sequence of the JASPER model and modifying part of one sequence with specific values for training. These two sequences are processed through a recurrent neural network, and the model is trained to reduce the Reconstruction Loss by correctly predicting the transformed values along the time axis, thereby correcting for generalization performance. The datasets used for training include a Korean call center voice dataset and the KsponSpeech Dataset, a free speech dataset in Korean. To evaluate the model's generalization performance, tests were conducted using different datasets from the training data and by adding noise to simulate real-world environments. The model's performance was compared with models commonly used in speech recognition or image data processing, demonstrating up to approximately 26% lower Character Error Rate (CER) compared to the control group.