통신, 엔터테인먼트, 보안 등 다양한 분야에서 오디오의 활용이 증가함에 따라서, 그 음질을 평가하여 응용하는 것이 중요해지고 있다. 특히, 오디오 포렌식 분야에서 오디오의 고음질과 저음질을 신속하게 판별하는 기술은 불법적인 녹취 데이터를 분류하는데 기여한다. 본 논문에서는 변형된 DenseNet 기반의 음질 분류 모델을 통해 오디오의 음질을 판단하는 방법을 제안한다. 3초 단위 오디오를 입력받아, MFCC(Mel-Frequency Cepstral Coefficients)를 이용해 2차원 신호 특징을 추출하였고, 변형된 DenseNet 모델에 적용하여 음질 판단에 활용하였다. 국내외 데이터셋과 자체적으로 수집한 오디오를 사용하여 실험을 수행하였다. CNN 모델을 사용하였을 때 86.7% 정확도를 보였으나, 제안한 변형된 DenseNet 모델을 사용하였을 때 94% 정확도를 달성하였다.
As the use of audio increases in various fields such as communication, entertainment, and security, it is becoming more important to evaluate accurately its quality and apply. In particular, the technology to quickly determine the high and low quality of audio can contribute to classify illegal recording data in the field of audio forensics. In this paper, we propose a method of determining the audio quality using a modified DenseNet-based audio quality classification model. When audio in units of 3 seconds was input, the 2D feature of the audio was extracted using Mel-Frequency Cepstral Coefficients(MFCC) and applied to the modified DenseNet model to determine audio quality. Experiments were performed using domestic and foreign datasets and audio collected in-house. Although the accuracy of the CNN model was 86.7%, the proposed modified DenseNet model achieved the accuracy of 94%.