• Title/Summary/Keyword: Kaldi

Search Result 4, Processing Time 0.021 seconds

Comparative study of Korean speech recognition based on SpecAugment and Kaldi (SpecAugment와 Kaldi기반 한국어 음성인식 비교 연구)

  • Lee, Seounghoon;Park, Chanjun;Seo, Jaehyung;Kim, Gyeongmin;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.152-157
    • /
    • 2021
  • Kaldi는 음성인식 오픈소스 플랫폼이며 많은 기업에서 이를 이용하여 비즈니스 및 연구를 진행하고 있다. 그러나 국문으로 된 Kaldi에 대한 자세한 모듈 설명과 활용법은 아직 미비한 실정이다. 본 논문은 음성인식 오픈소스인 Kaldi에 대한 각 모듈별 자세한 설명과 더불어 데이터 증강 기법인 SpecAugment를 한국어 음성인식 시스템에 적용하여 성능 향상 여부를 검증하였다. 그리고 Kaldi의 음향모델과 언어모델을 변경하면서 어떠한 모듈들로 구성된 한국어 음성인식 모델을 사용하는 것이 가장 결과가 좋은 지를 검증하고 실시간 디코딩에 있어서 실용적인지를 비교하였다.

  • PDF

소형 원두커피자판기 "KALDI"

  • Korea Vending Machine Manufacturers Association
    • Vending industry
    • /
    • v.6 no.2 s.17
    • /
    • pp.18-20
    • /
    • 2006
  • 커피자판기 시장의 새로운 트랜드를 찾아라. 침체일로의 커피자판기 시장이 새로운 타개책을 찾기 위해선 인스턴트커피자판기 일변도의 시장을 탈피하는 일이 급선무 과제이다. 그래서 대안으로 등장한게 원두커피자판기 시장이다. 이 시장 개척을 위한 도전들이 진행된지 어언 6년. 시장 개척을 위한 선각자의 길은 항상 외롭고 힘든 법이다. 커피자판기의 새로운 트랜드 조성을 위한 원두의 시대를 여는 일은 악전고투의 연속이었다. 소비자의 트랜드는 쉽사리 변하지 않았고, 일부 시장에서 선전하며 보급이 조금씩 늘어가는게 위안이었다. 하지만 분명한 것은 언젠가는 원두커피자판기의 시대가 올 것이라는 확신을 가지고 포기하지 않았다는 사실이다. 그러한 가운데 소비자 인식확대와 제품 운영 효율은 꾸준히 향상되어 왔다. 특히 지하철 로케이션에 다량 제품이 설치 운영된 이후부터 원두커피자판기에 대한 소비자 인식은 급속도로 좋아지고 있다. 원두커피자판기 시장에 일대 훈풍이 불어온다 할 정도로 시장성은 호전되고 있는 상황. 이러한 가운데 새로운 사업방식으로 원두커피자판기 시장의 일대 돌풍을 일으키려는 야심에 찬 업체가 있다. 대형과는 차별화된 소형 원두커피자판기 "KALDI"로 파급력 있는 임대사업을 펼칠 내외시스템의 사업행보를 따라가 봤다.

  • PDF

Combining deep learning-based online beamforming with spectral subtraction for speech recognition in noisy environments (잡음 환경에서의 음성인식을 위한 온라인 빔포밍과 스펙트럼 감산의 결합)

  • Yoon, Sung-Wook;Kwon, Oh-Wook
    • The Journal of the Acoustical Society of Korea
    • /
    • v.40 no.5
    • /
    • pp.439-451
    • /
    • 2021
  • We propose a deep learning-based beamformer combined with spectral subtraction for continuous speech recognition operating in noisy environments. Conventional beamforming systems were mostly evaluated by using pre-segmented audio signals which were typically generated by mixing speech and noise continuously on a computer. However, since speech utterances are sparsely uttered along the time axis in real environments, conventional beamforming systems degrade in case when noise-only signals without speech are input. To alleviate this drawback, we combine online beamforming algorithm and spectral subtraction. We construct a Continuous Speech Enhancement (CSE) evaluation set to evaluate the online beamforming algorithm in noisy environments. The evaluation set is built by mixing sparsely-occurring speech utterances of the CHiME3 evaluation set and continuously-played CHiME3 background noise and background music of MUSDB. Using a Kaldi-based toolkit and Google web speech recognizer as a speech recognition back-end, we confirm that the proposed online beamforming algorithm with spectral subtraction shows better performance than the baseline online algorithm.

Korean speech recognition based on grapheme (문자소 기반의 한국어 음성인식)

  • Lee, Mun-hak;Chang, Joon-Hyuk
    • The Journal of the Acoustical Society of Korea
    • /
    • v.38 no.5
    • /
    • pp.601-606
    • /
    • 2019
  • This paper is a study on speech recognition in the Korean using grapheme unit (Cho-sumg [onset], Jung-sung [nucleus], Jong-sung [coda]). Here we make ASR (Automatic speech recognition) system without G2P (Grapheme to Phoneme) process and show that Deep learning based ASR systems can learn Korean pronunciation rules without G2P process. The proposed model is shown to reduce the word error rate in the presence of sufficient training data.