• 제목, 요약, 키워드: Deep Neural Network(DNN)

검색결과 111건 처리시간 0.036초

딥 뉴럴 네트워크 기반의 음성 향상을 위한 데이터 증강 (Data Augmentation for DNN-based Speech Enhancement)

  • 이승관;이상민
    • 한국멀티미디어학회논문지
    • /
    • v.22 no.7
    • /
    • pp.749-758
    • /
    • 2019
  • This paper proposes a data augmentation algorithm to improve the performance of DNN(Deep Neural Network) based speech enhancement. Many deep learning models are exploring algorithms to maximize the performance in limited amount of data. The most commonly used algorithm is the data augmentation which is the technique artificially increases the amount of data. For the effective data augmentation algorithm, we used a formant enhancement method that assign the different weights to the formant frequencies. The DNN model which is trained using the proposed data augmentation algorithm was evaluated in various noise environments. The speech enhancement performance of the DNN model with the proposed data augmentation algorithm was compared with the algorithms which are the DNN model with the conventional data augmentation and without the data augmentation. As a result, the proposed data augmentation algorithm showed the higher speech enhancement performance than the other algorithms.

딥러닝 기반 상황 맞춤형 홈 오토메이션 시스템 (Deep Learning-based Environment-aware Home Automation System)

  • 박민지;노윤수;조성준
    • 한국정보통신학회:학술대회논문집
    • /
    • /
    • pp.334-337
    • /
    • 2019
  • 본 연구에서는 딥러닝을 통해 스스로 사용자의 행동 습관 데이터를 학습하고, 상황에 맞춰 실내 환경을 조성할 수 있는 시스템을 구성하였다. 정보 수집 시스템은 데이터 수집 서버와 각종 센서 노드로 구성되며, 모은 데이터에 따라 환경을 조성한다. 사진 분석은 Google Inception v3를, 행동 유추는 직접 설계한 2차 DNN을 사용했다. 모의 데이터로 DNN 학습을 진행한 결과 98.4%의 정확도로 충분히 상황 유추가 가능함을 입증할 수 있었다.

  • PDF

잡음 환경 음성 인식을 위한 심층 신경망 기반의 잡음 오염 함수 예측을 통한 음향 모델 적응 기법 (Model adaptation employing DNN-based estimation of noise corruption function for noise-robust speech recognition)

  • 윤기무;김우일
    • 한국음향학회지
    • /
    • v.38 no.1
    • /
    • pp.47-50
    • /
    • 2019
  • 본 논문에서는 잡음 환경에서 효과적인 음성 인식을 위하여 DNN(Deep Neural Network) 기반의 잡음 오염 함수 예측을 이용한 음향 모델 적응 기법을 제안한다. 깨끗한 음성과 잡음 정보를 입력으로 하고 오염된 음성에 대한 특징 벡터를 출력으로 하는 DNN을 학습하여 비선형 관계를 갖는 잡음 오염 함수를 예측한다. 예측된 잡음 오염 함수를 음향모델의 평균 벡터에 적용하여 잡음 환경에 적응된 음향 모델을 생성한다. Aurora 2.0 데이터를 이용한 음성 인식 성능 평가에서 본 논문에서 제안한 모델 적응 기법이 기존의 전처리, 모델 적응 기법에 비해 일치, 불일치 잡음 환경에서 모두 평균적으로 우수한 성능을 나타낸다. 특히 불일치 잡음 환경에서 평균 오류율이 15.87 %의 상대 향상률을 나타낸다.

관성 마찰용접 공정에서 심층 신경망을 이용한 업셋 길이와 업셋 시간의 예측 (Prediction of Upset Length and Upset Time in Inertia Friction Welding Process Using Deep Neural Network)

  • 양영수;배강열
    • 한국기계가공학회지
    • /
    • v.18 no.11
    • /
    • pp.47-56
    • /
    • 2019
  • A deep neural network (DNN) model was proposed to predict the upset in the inertia friction welding process using a database comprising results from a series of FEM analyses. For the database, the upset length, upset beginning time, and upset completion time were extracted from the results of the FEM analyses obtained with various of axial pressure and initial rotational speed. A total of 35 training sets were constructed to train the proposed DNN with 4 hidden layers and 512 neurons in each layer, which can relate the input parameters to the welding results. The mean of the summation of squared error between the predicted results and the true results can be constrained to within 1.0e-4 after the training. Further, the network model was tested with another 10 sets of welding input parameters and results for comparison with FEM. The test showed that the relative error of DNN was within 2.8% for the prediction of upset. The results of DNN application revealed that the model could effectively provide welding results with respect to the exactness and cost for each combination of the welding input parameters.

깊은 신경망 특징 기반 화자 검증 시스템의 성능 비교 (Performance Comparison of Deep Feature Based Speaker Verification Systems)

  • 김대현;성우경;김홍국
    • 말소리와 음성과학
    • /
    • v.7 no.4
    • /
    • pp.9-16
    • /
    • 2015
  • In this paper, several experiments are performed according to deep neural network (DNN) based features for the performance comparison of speaker verification (SV) systems. To this end, input features for a DNN, such as mel-frequency cepstral coefficient (MFCC), linear-frequency cepstral coefficient (LFCC), and perceptual linear prediction (PLP), are first compared in a view of the SV performance. After that, the effect of a DNN training method and a structure of hidden layers of DNNs on the SV performance is investigated depending on the type of features. The performance of an SV system is then evaluated on the basis of I-vector or probabilistic linear discriminant analysis (PLDA) scoring method. It is shown from SV experiments that a tandem feature of DNN bottleneck feature and MFCC feature gives the best performance when DNNs are configured using a rectangular type of hidden layers and trained with a supervised training method.

ICA와 DNN을 이용한 방송 드라마 콘텐츠에서 음악구간 검출 성능 (Performance of music section detection in broadcast drama contents using independent component analysis and deep neural networks)

  • 허운행;장병용;조현호;김정현;권오욱
    • 말소리와 음성과학
    • /
    • v.10 no.3
    • /
    • pp.19-29
    • /
    • 2018
  • We propose to use independent component analysis (ICA) and deep neural network (DNN) to detect music sections in broadcast drama contents. Drama contents mainly comprise silence, noise, speech, music, and mixed (speech+music) sections. The silence section is detected by signal activity detection. To detect the music section, we train noise, speech, music, and mixed models with DNN. In computer experiments, we used the MUSAN corpus for training the acoustic model, and conducted an experiment using 3 hours' worth of Korean drama contents. As the mixed section includes music signals, it was regarded as a music section. The segmentation error rate (SER) of music section detection was observed to be 19.0%. In addition, when stereo mixed signals were separated into music signals using ICA, the SER was reduced to 11.8%.

원어민 및 외국인 화자의 음성인식을 위한 심층 신경망 기반 음향모델링 (DNN-based acoustic modeling for speech recognition of native and foreign speakers)

  • 강병옥;권오욱
    • 말소리와 음성과학
    • /
    • v.9 no.2
    • /
    • pp.95-101
    • /
    • 2017
  • This paper proposes a new method to train Deep Neural Network (DNN)-based acoustic models for speech recognition of native and foreign speakers. The proposed method consists of determining multi-set state clusters with various acoustic properties, training a DNN-based acoustic model, and recognizing speech based on the model. In the proposed method, hidden nodes of DNN are shared, but output nodes are separated to accommodate different acoustic properties for native and foreign speech. In an English speech recognition task for speakers of Korean and English respectively, the proposed method is shown to slightly improve recognition accuracy compared to the conventional multi-condition training method.

딥 뉴럴 네트워크 지원을 위한 뉴로모픽 소프트웨어 플랫폼 기술 동향 (Trends in Neuromorphic Software Platform for Deep Neural Network)

  • 유미선;하영목;김태호
    • 전자통신동향분석
    • /
    • v.33 no.4
    • /
    • pp.14-22
    • /
    • 2018
  • Deep neural networks (DNNs) are widely used in various domains such as speech and image recognition. DNN software frameworks such as Tensorflow and Caffe contributed to the popularity of DNN because of their easy programming environment. In addition, many companies are developing neuromorphic processing units (NPU) such as Tensor Processing Units (TPUs) and Graphical Processing Units (GPUs) to improve the performance of DNN processing. However, there is a large gap between NPUs and DNN software frameworks due to the lack of framework support for various NPUs. A bridge for the gap is a DNN software platform including DNN optimized compilers and DNN libraries. In this paper, we review the technical trends of DNN software platforms.

Deep Neural Network를 이용한 산란계의 고온 스트레스 탐지 (A Heat Stress Detection on Laying Hens Using Deep Neural Network)

  • 노병준;최장민;이종욱;박대희;정용화;장홍희
    • 한국정보처리학회:학술대회논문집
    • /
    • /
    • pp.776-778
    • /
    • 2015
  • 논문에서는 DNN(Deep Neural Network)의 dropout 기법을 이용하여 산란계가 고온 스트레스를 받고 있는지 여부를 닭의 울음소리 정보를 통해 탐지하는 방법을 제안한다. 실험에서는 $21^{\circ}C$ 정상 온도에서 100개의 소리 데이터, $35^{\circ}C$ 고온에서 200개의 소리 데이터를 사용한다. 먼저, DNN의 학습을 위해서 취득한 울음소리에서 54개의 소리 특징 정보를 추출한다. 둘째, CFS(Correlation Feature Selection)을 이용하여, 추출된 특징 중 온도 구분을 위한 중요한 특정 10개를 선택한다. 셋째, 선택된 소리특징을 DNN에 적용하여 온도 환경을 구분하는 시스템이다. DNN의 과적합(over-fitting) 영향을 감소시키고, 성능 향상을 위하여 dropout 비율을 조정하여 실험을 진행하였다. 본 연구에서는 실제 계사에서 수집된 소리 정보를 이용하여 모의실험을 수행한 결과 매우 우수한 성능을 보임을 확인하였다.

Deep neural network-hidden Markov model 하이브리드 구조의 모델을 사용한 사용자 정의 기동어 인식 시스템에 관한 연구 (A study on user defined spoken wake-up word recognition system using deep neural network-hidden Markov model hybrid model)

  • 윤기무;김우일
    • 한국음향학회지
    • /
    • v.39 no.2
    • /
    • pp.131-136
    • /
    • 2020
  • 음성 인식기를 대기모드에서 동작 모드로 전환하기 위해 발화하는 짧은 단어를 기동어(Wake Up Word, WUW)라고 하며, 음성 인식기를 실제로 사용하는 사용자가 지정한 기동어를 사용자 정의 기동어라고 한다. 본 논문에서는 이러한 사용자 정의 기동어를 인식하기 위해 기존의 Gaussian Mixture Model-Hidden Markov Model(GMM-HMM) 기반의 시스템, Linear Discriminant Analysis(LDA)를 적용한 LDA-GMM-HMM 기반의 시스템과, LDA-GMM-HMM 모델에서 GMM을 Deep Neural Network(DNN)로 대체한 LDA-DNN-HMM 기반의 시스템을 제작하고 각 시스템의 사용자 정의 기동어 인식 성능 및 비기동어 거절 성능을 비교한다. 또한 기동어 인식기의 체감 성능을 향상시키고자 각 모델에 threshold를 적용하여 기동어 인식 실패율을 약 10 % 수준으로 감소 시킨 후에 비기동어(non-WUW)의 거절 실패율을 비교 평가한다. Threshold 적용시에 LDA-DNN-HMM 기반의 시스템의 경우 기동어 인식 실패율 9.84 % 수준에서 비기동어 거절 실패율이 0.0058 %의 인식 성능을 나타내어 LDA-GMM-HMM 시스템 보다 약 4.82배 향상된 비기동어 거절 성능을 나타낸다. 이러한 결과는 본 논문에서 제작한 LDA-DNN-HMM 모델이 사용자 정의 기동어 인식 시스템을 구축하는데 효과적임을 입증한다.