DOI QR코드

DOI QR Code

교사 학생 심층신경망을 활용한 다채널 원거리 화자 인증

Multi channel far field speaker verification using teacher student deep neural networks

  • 정지원 (서울시립대학교 컴퓨터과학과) ;
  • 허희수 (서울시립대학교 컴퓨터과학과) ;
  • 심혜진 (서울시립대학교 컴퓨터과학과) ;
  • 유하진 (서울시립대학교 컴퓨터과학과)
  • 투고 : 2018.09.18
  • 심사 : 2018.11.22
  • 발행 : 2018.11.30

초록

원거리 발성은 화자 인증 시스템의 성능을 하락시키는 주요 요인으로 알려져 있다. 본 논문에서는 교사 학생 학습을 이용하여 원거리 발성에 의한 화자 인증 시스템의 성능 하락을 보상하는 기법을 제안한다. 교사 학생 학습은 미리 학습된 교사 심층신경망의 출력과 학생 신경망의 출력이 같아지도록 학생 신경망을 학습하는 기법이다. 여기서 교사 신경망에는 근거리 발성을, 학생 신경망에는 원거리 발성을 입력한 뒤, 두 신경망의 출력을 동일하게 만드는 과정을 통해 원거리 발성을 보상할 수 있을 것이라고 기대하였다. 하지만 원거리 발성을 보상하는 과정에서, 근거리 발성에 대한 인식률이 저하되는 현상을 실험적으로 발견하였다. 위와 같은 현상을 예방하기 위해 본 논문에서는 교사 심층신경망을 학생 심층신경망의 초깃값으로 사용하는 기법과 학생 심층신경망을 근거리 발성에 대해서도 학습하는 기법을 제안하였다. 모든 실험은 원 음성을 입력 받는 심층신경망을 활용해 수행하였다. 동일한 발성을 각각 4 채널로 근거리와 원거리에서 자체적으로 수집한 문장 종속 데이터셋을 활용하였다. 동일 오류율을 기준으로 근거리 / 원거리 발성에 대한 화자 인증 성능을 평가한 결과 교사 학생 학습을 사용하지 않을 경우 2.55 % / 2.8 %, 기존의 교사 학생 학습을 사용할 경우 9.75 % / 1.8 %, 제안한 기법들을 적용한 경우 2.5 % / 2.7 %의 오류율을 확인하였다.

Far field input utterance is one of the major causes of performance degradation of speaker verification systems. In this study, we used teacher student learning framework to compensate for the performance degradation caused by far field utterances. Teacher student learning refers to training the student deep neural network in possible performance degradation condition using the teacher deep neural network trained without such condition. In this study, we use the teacher network trained with near distance utterances to train the student network with far distance utterances. However, through experiments, it was found that performance of near distance utterances were deteriorated. To avoid such phenomenon, we proposed techniques that use trained teacher network as initialization of student network and training the student network using both near and far field utterances. Experiments were conducted using deep neural networks that input raw waveforms of 4-channel utterances recorded in both near and far distance. Results show the equal error rate of near and far-field utterances respectively, 2.55 % / 2.8 % without teacher student learning, 9.75 % / 1.8 % for conventional teacher student learning, and 2.5 % / 2.7 % with proposed techniques.

키워드

GOHHBH_2018_v37n6_483_f0001.png 이미지

Fig. 1. General pipeline process of teacher student learning framework for far-field speaker verification.

GOHHBH_2018_v37n6_483_f0002.png 이미지

Fig. 2. Illustration of RWCNN-residual model (offline phase, Jung et al., Interspeech 2018[9]) and overall speaker verification pipeline (online phase). Three numbers next to convolutions each refer to the length of kernel, stride size, and the number of kernels.

Table 1. EER of the baseline and proposed teacher student based systems (near / far field evaluation). ‘ts’ means teacher student learning, ‘teacher init’ refers to initializing the student network using learned teacher network, and ‘student w near’ refers to usingnear-field utterances for student training as well.

GOHHBH_2018_v37n6_483_t0001.png 이미지

참고문헌

  1. M. Brandstein and D. Ward, Microphone arrays: signal processing techniques and applications (Springer Science & Media , Heidelberg, 2013), pp. 39-60.
  2. J. Sohn, N. Kim, and W. Sung, "A statistical model-based voice activity detection" IEEE signal processing letters, 6, 1-3 (1999).
  3. J. Li, R. Zhao, Z. Chen, C. Liu, X. Xiao, G. Ye, and Y. Gong, "Developing Far-Field Speaker System via teacher student Learning," Proc. ICASSP, 5699-5703 (2018).
  4. M. Ravanelli, P. Brakel, M. Omologo, and Y. Bengio, "Batch-normalized joint training for DNN-based distant speech recognition," Proc. SLT workshop, 28-34 (2016).
  5. J. Li, R. Zhao, J. Huang, and Y. Gong, "Learning smallsize DNN with output-distribution-based criteria," Proc. Interspeech, 1910-1914 (2014).
  6. J. Jung, H. Heo, Y. Yang, H. Shim, and H. Yu, "A complete end-to-end speaker verification system using deep neural networks: from raw signals to verification result," Proc. ICASSP, 5349-5353 (2018).
  7. H. Kaiming, Z. Xiangyu, R. Shaoqing, and S. Jian, "Identity mappings in deep residual networks," Proc. ECCV, 30-645 (2016).
  8. S. Ioffe and C. Szegedy, "Batch normalization: accelerating deep network training by reducing internal covariate shift," Proc. ICML, 448-456 (2015).
  9. J. Jung, H. Heo, Y. Yang, H. Shim, and H. Yu, "Avoiding speaker overfitting in End-to-End DNNs using raw waveform for text-independent speaker verification" Proc. Interspeech, 3583-3587 (2018).