DOI QR코드

DOI QR Code

실데이터 기반 능동 소나 신호 합성 방법론

Real data-based active sonar signal synthesis method

  • 김윤수 (창원대학교 정보통신공학과) ;
  • 김주호 (국방과학연구소 해양기술연구원 소나체계개발단) ;
  • 석종원 (창원대학교 정보통신공학과) ;
  • 홍정표 (창원대학교 정보통신공학과)
  • Yunsu Kim ;
  • Juho Kim ;
  • Jongwon Seok (Department of Information and Communication Engineering, Changwon National University) ;
  • Jungpyo Hong (Department of Information and Communication Engineering, Changwon National University)
  • 투고 : 2023.05.19
  • 심사 : 2023.12.05
  • 발행 : 2024.01.31

초록

최근 수중표적의 저소음화와 해상교통량의 증가로 인한 주변 소음의 증가로 능동 소나 시스템의 중요성이 증대되고 있다. 하지만 신호의 다중 경로를 통한 전파, 다양한 클러터와 주변 소음 및 잔향 등으로 인한 반향신호의 낮은 신호대잡음비는 능동 소나를 통한 수중 표적 식별을 어렵게 만든다. 최근 수중 표적 식별 시스템의 성능을 향상 시키기 위해 머신러닝 혹은 딥러닝과 같은 데이터 기반의 방법을 적용시키려는 시도가 있지만, 소나 데이터셋의 특성 상 훈련에 충분한 데이터를 모으는 것이 어렵다. 부족한 능동 소나 데이터를 보완하기 위해 수학적 모델링에 기반한 방법이 주로 활용되어오고 있다. 그러나 수학적 모델링에 기반한 방법론은 복잡한 수중 현상을 정확하게 모의하는 데에는 한계가 있다. 따라서 본 논문에서는 심층 신경망 기반의 소나 신호 합성 기법을 제안한다. 제안하는 방법은 인공지능 모델을 소나 신호 합성 분야에 적용하기 위해, 음성 합성 분야에서 주로 사용되는 타코트론 모델의 주요 모듈인 주의도 기반의 인코더 및 디코더를 소나 신호에 적절하게 수정하였다. 실제 해상 환경에 모의 표적기를 배치해 수집한 데이터셋을 사용하여 제안하는 모델을 훈련시킴으로써 보다 실제 신호와 유사한 신호를 합성해낼 수 있게 된다. 제안된 방법의 성능을 검증하기 위해, 합성된 음파 신호의 스펙트럼을 직접 분석을 진행하여 비교하였으며, 이를 바탕으로 오디오 품질 인지적 평가(Perceptual Quality of Audio Quality, PEAQ)인지적 성능 검사를 실시하여 총 4개의 서로 다른 환경에서 생성된 반사 신호들에 대해 원본과 비교해 그 차이가 최소 -2.3이내의 높은 성적을 보여주었다. 이는 본 논문에서 제안한 방법으로 생성한 능동 소나 신호가 보다 실제 신호에 근사한다는 것을 입증한다.

The importance of active sonar systems is emerging due to the quietness of underwater targets and the increase in ambient noise due to the increase in maritime traffic. However, the low signal-to-noise ratio of the echo signal due to multipath propagation of the signal, various clutter, ambient noise and reverberation makes it difficult to identify underwater targets using active sonar. Attempts have been made to apply data-based methods such as machine learning or deep learning to improve the performance of underwater target recognition systems, but it is difficult to collect enough data for training due to the nature of sonar datasets. Methods based on mathematical modeling have been mainly used to compensate for insufficient active sonar data. However, methodologies based on mathematical modeling have limitations in accurately simulating complex underwater phenomena. Therefore, in this paper, we propose a sonar signal synthesis method based on a deep neural network. In order to apply the neural network model to the field of sonar signal synthesis, the proposed method appropriately corrects the attention-based encoder and decoder to the sonar signal, which is the main module of the Tacotron model mainly used in the field of speech synthesis. It is possible to synthesize a signal more similar to the actual signal by training the proposed model using the dataset collected by arranging a simulated target in an actual marine environment. In order to verify the performance of the proposed method, Perceptual evaluation of audio quality test was conducted and within score difference -2.3 was shown compared to actual signal in a total of four different environments. These results prove that the active sonar signal generated by the proposed method approximates the actual signal.

키워드

과제정보

이 연구는 국방과학연구소의 지원을 받아 수행된 연구임(UD210005DD).

참고문헌

  1. W. C. Knight, R. G. Pridham, and S. M. Kay, "Digital signal processing for sonar," Proc. IEEE, 69, 1451-1506 (1981).
  2. A. A. Winder, "Sonar system technology," ITSU, 22, 291-332 (1975).
  3. H. Yang, S.-H. Byun, K. Lee, Y. Choo, and K. Kim, "Underwater acoustic research trends with machine learning: active sonar applications," J. Ocean Eng. Technol. 34, 277-284 (2020).
  4. D. Grimmett and S. Coraluppi, "Contact-level multistatic sonar data simulator for tracker performance assessment," Proc. the 9th International Conf. Information Fusion, 1-7 (2006).
  5. B. La Cour, C. Collins, and J. Landry, "Multi-everything sonar simulator (MESS)," Proc. 9th International Conf. Information Fusion, 1-6 (2006).
  6. P. A.m. De Theije and H. Groen, "Multistatic sonar simulations with SIMONA," Proc. 9th International Conference on Information Fusion, 1-6 (2006).
  7. K. D. LePage, C. H. Harrison, C. Strode, and M. Oddone, "Real-time reverberation time series simulation for embedded simulation of bistatic active sonar," Proc. OCEANS, 1-4 (2021).
  8. A. Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior, and K. Kavukcuoglu, "WaveNet: a generative model for raw audio," arXiv preprint arXiv:1609.03499 (2016).
  9. S. O. Arik, M. Chrzanowski, A. Coates, G. Diamos, A. Gibiansky, Y. Kang, X. Li, J. Miller, A. Ng, J. Raiman, S. Sengupta, and M. Shoeybi, "Deep voice: real-time neural text-to-speech," arXiv:1702.07825, 1-10 (2017).
  10. S. Mehta, E. Szekely, J. Beskow, and G. E. Henter, "Neural HMMs are all you need (for high-quality attention-free TTS)," Proc. ICASSP, arXiv:2108.13320, 1-5 (2022).
  11. J. Sotelo, S. Mehri, K. Kumar, J. F. Santos, K. Kastner, A. Courville, and Y. Bengio, "Char2Wav: end-to-end speech synthesis," Proc. ICLR workshop submission, 1-6, 2017.
  12. Y. Wang, R. J. Skerry-Ryan, D. Stanton, Y. Wu, R. J. Weiss, N. Jaitly, Z. Yang, Y. Xiao, Z. Chen, S. Bengio, Q. Le, Y. Agiomyrgiannakis, R. Clark, and R. A. Saurous, "Tacotron: towards end-to-end speech synthesis," Proc. Interspeech, 4006-4010 (2017).
  13. B. I. Kim, H. U. Lee, and M. H. Park, "A study on highlight distribution for underwater simulated target," Proc. IEEE Int. Symp. Ind. Electron. 1988-1992 (2001).
  14. Y. Kim, J. Kim, J. Hong, and J. Seok, "The tacotronbased signal synthesis method for active sonar," Sensors, 23, 28 (2023).
  15. V. A. Kozhevnikov and E. S. Pankratova, "Research of the text data vectorization and classification algorithms of machine learning," ISJ Theor. Appl. Sci. 5, 574-585 (2020).
  16. W. A. Qader, M. M. Ameen, and B. I. Ahmed, "An overview of bag of words; importance, implementation, applications, and challenges," Proc. 5th Int. Eng. Conf. IEC, 200-204 (2019).
  17. B. Das and S. Chakraborty, "An improved text sentiment classification model using TF-IDF and next word negation," ArXiv: 1806.06407 (2018).
  18. C. Wang, P. Nulty, and D. Lillis, "A comparative study on word embeddings in deep learning for text classification," Proc. 4th Int. Conf. NLPI, 37-46 (2020).
  19. S. Li, S. Villette, P. Ramadas, and D. Sinder, "Speech bandwidth extension using generative adversarial networks," Proc. ICASSP, 5029-5033 (2018).
  20. I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio "Generative adversarial nets," Proc. NIPS, 2672-2680 (2014).
  21. C. Ledig, L. Theis, F. Huszar, J. Caballero, A. Cunningham, A. Acosta, A. Aitken, A. Tejani, J. Totz, Z. Wang, and W. Shi, "Photo-realistic single image super-resolution using a generative adversarial network," Proc. IEEE Conf. CVPR, 105-114 (2017).
  22. A. F. Khalifeh, A. Al-Tamimi, and K. A. Darabkh, "Perceptual evaluation of audio quality under lossy networks," Proc. International Conf. WiSPNET, 939-943 (2017).