• Title/Summary/Keyword: 음성 인식

Search Result 1,637, Processing Time 0.268 seconds

Syllabic Speech Rate Control for Improving Elderly Speech Recognition of Smart Devices (음절 별 발화속도 조절을 통한 노인 음석인식 개선)

  • Kyeong, Ju Won;Son, Gui Young;Kwon, Soonil
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • /
    • pp.1711-1714
    • /
    • 2015
  • 스마트 디바이스가 사회와 소통할 수 있는 도구가 되었음에도 불구하고 아직까지 노인들이 사용하기에는 어려움이 있다. 여기에 음성인식 기술을 이용한 음성인터페이스를 활용함으로써 노인들의 스마트 디바이스에 대한 사용성을 높일 수 있다. 하지만 일반적인 음성인식 시스템은 청장년의 발성 스타일에 맞춰져 있기 때문에, 노화된 노인의 발성이 그대로 입력될 경우 음성인식률이 하락한다. 본 연구에서는 노인의 음절 별 발화속도가 일반적인 음성인식 시스템의 성능을 보증할 수 있는 범위를 벗어나는 경우가 많다는 분석 결과를 토대로 노인의 음절 별 발화속도를 조정한 결과 노인남녀 평균 음성인식률이 15.3% 상승하였다. 이처럼 노인의 음성인식 오류 원인들 중 하나인 발화속도의 재조정으로 음성 인식률을 높일 수 있는 토대를 마련하였다. 이는 노인들이 스마트 디바이스를 이용하여 쉽고 정확한 작업을 수행할 수 있게 됨으로써, 노인들의 사회 참여와 정보 획득이 용이해 지고 더 나아가 세대 간의 소통에도 이바지할 것으로 기대한다.

Blmodal Speech Recognition Using Contextual Feature (문맥정보를 이용한 이중모드 음성인식)

  • 류정우;김은주;김명원
    • Proceedings of the Korean Information Science Society Conference
    • /
    • /
    • pp.631-633
    • /
    • 2004
  • 최근 잡음환경에서 신뢰도 높은 음성인식을 위해 음성정보와 영상정보를 융합하는 이중모드 음성인식 방법이 활발히 연구되고 일다. 본 논문에서는 보다 음성 인식률을 향상시키기 위해 사용자가 말한 단어들의 순차 패턴을 나타내는 문맥정보를 이용한 후처리 방법을 제안한다. 이러한 문맥정보를 인식하기 위해 다층퍼셉트론 구조를 갖는 문맥정보 인식기를 제안한다 이중모드 음성인식기와 문맥정보 인식기 결과를 효율적으로 결합하기 위한 후처리 방법으로 순차 결합방법을 제안한다. 문맥정보를 이용한 이중모드 음성인식이 잡음 환경에서 90%이상의 인식률을 보였다 본 논문은 잡음환경에서 강인한 음성인식을 위해 문맥정보와 같은 사용자 행동패턴이 새로운 정보로 이용될 수 있다는 가능성을 제시한다.

  • PDF

신성장동력산업용 대어휘 음성인식 기술 동향 및 응용

  • Gang, Jeom-Ja;Gang, Byeong-Ok;Jeong, Ho-Yeong;Jeong, Hun;Lee, Yun-Geun
    • Electronics and Telecommunications Trends
    • /
    • v.23 no.1
    • /
    • pp.65-76
    • /
    • 2008
  • 신성장동력산업용 음성인식 기술은 지능형 로봇, 텔레매틱스, 홈네트워크, 차세대 PC, 디지털 콘텐츠 검색 등에 음성인식 기술을 적용하기 위한 것이다. 음성인식 기술은 사람이 일상생활 속에서 사용하는 단말기들의 제어나 정보 서비스를 마우스나 키보드를 사용하지 않고, 사람이 갖는 가장 친화적이면서 편리한 의사소통 도구인 목소리를 사용하여 원하는 단말기의 제어나 정보 서비스를 제공 받을 수 있도록 지원하는 기술을 말한다. 본 고에서는 음성인식 기술의 발전과정을 통한 음성인식 기술의 발전 동향에 대해서 설명하고, 신성장동력산업 분야의 인터페이스로 음성인식 기술을 적용한 핵심 요소 기술에 대한 개발 동향과 응용 사례에 대해서 기술한다.

Software Development of an Intelligent Toy with Various Functions Including Speech Recognition (음성인식 등의 복합기능을 가진 지능형 장난감의 소프트웨어 개발)

  • 박상훈;한상훈;조형제
    • Proceedings of the Korean Information Science Society Conference
    • /
    • /
    • pp.589-591
    • /
    • 2001
  • 음성인식은 여러 분야에 적용될 수 있지만 지능형 장난감에 적용된 사례를 보면 다른 시스템에서 적용된 경우와 같이 높은 인식률이 요구된다. 하지만 음성인식의 기능만으로 지능형 장난감의 기능이 다양성을 가지지 못한다. 음성인식기능 뿐만 아니라 다른 여러 가지의 기능을 가진 지능형 장난감의 소프트웨어를 개발하는 것이 다른 시스템과의 차별성을 두는 것이 된다. 본 논문에서는 이 Intelligent Toy에 내장될 음성인식 등의 여러 가지의 기능을 가진 Software를 구현하는 방법 및 결과를 제시한다. 대표적 기능인 음성인식은 화자종속이고 그 인식률은 99%의 높은 인식률을 얻었다. 그외에도 음성합성, 음악합성, 음성녹음 및 재생 등의 기능구현을 하였다. 음성인식을 가진 Intelligent Toy 계열의 시스템과 같은 잡음 환경 하에서 인식률을 비교해 볼 때 그 결과가 우수함을 확인하였다.

  • PDF

Contents Navigation System using Speech Recognition (음성인식 기반 컨텐츠 네비게이션 시스템)

  • Kim, Kee-Beak;Choi, Jong-Ho
    • KSCI Review
    • /
    • v.15 no.1
    • /
    • pp.99-102
    • /
    • 2007
  • 최근 들어 인간의 의지를 각종의 전자시스템에 전달하기 위한 수단으로 음성인식 기술을 이용하고자 하는 연구가 널리 진행되고 있다. 음성인식 인터페이스에서 가장 중요한 이슈는 처리시간의 감소 및 범용 인터페이스의 개발이다. 이러한 문제점을 해결하기 위하여 본 연구에서는 하드웨어 기반의 상용 IC로 생산되고 있는 음성인식프로세서인 RSC-4128이 내장된 음성인식 모듈 VR-STAMP를 사용하였다. 본 연구에서 새롭게 개발한 시스템은 T2SI(Text To Speaker Independent) 기반의 화자(話者)독립 방식으로 음성인식 신호를 컨텐츠 네비게이션 시스템의 제어신호로 활용하여 임베디드 시스템 및 PC 등에 설치된 윈도우즈 기반의 응용 소프트웨어를 제어할 수 있는 시스템이다. 필드 테스트를 통해 그 유용성을 확인한 결과, 본 연구에서 개발한 시스템은 컨텐츠 네비게이션은 물론 가전기기 제어 및 흠 네트워크 등에 널리 응용될 수 있을 것으로 판단된다.

  • PDF

Implementation of the Multi-Channel Speech Recognition System for the Telephone Speech (전화음성인식을 위한 멀티채널 음성인식 시스템 구현)

  • Yi Siong-Hun;Suh Youngjoo;Kang Dong-Gyu
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • /
    • pp.179-182
    • /
    • 2000
  • 본 논문은 전화음성 서비스 시스템의 핵심 기술인 멀티채널 음성인식 시스템의 구현에 대해서 기술하고자 한다. 구현한 시스템은 전화망 인터페이스 모듈, 음성입력 모듈, 음성인식 모듈, 및 서비스 제어모듈로 구성되어 있다. 전화망 인터페이스 모듈은 전화망을 이용한 교환기와의 호 처리 및 이벤트 처리를 담당하며, 전화망 접속카드와 밀접한 관계를 가지고 있다. 음성입력 및 인식 모들은 호 접속이 이루어진 채널로부터 음성을 입력받아 단어인식 기능을 수행하는 부분으로서 멀티 채널을 수용할 수 있는 구조로 설계되어 있다. 음성인식 모델은 문맥 종속형 CHMM 모델이며, 각각의 HMM 모델은 3-state, skip path 로 구성되어 있다. 음성인식 모듈내의 함수들은 모두 re-entrant 하도록 구성함으로써 멀티 채별이 가능하며, 각각의 채널은 모두 독립적인 메모리 공간에서 동작하도록 되어있다. 이와 같은 멀티채널 전화음성인식 시스템은 Dialogic보드를 이용하여 Windows NT에서 동작하도록 구현하였다. 실험결과, 구현된 시스템은 실시간으로 상용서비스가 가능한 인식율을 보였으며 원활한 멀티채널 지원이 가능하였다.

  • PDF

A Study of Speech Recognition Web Services Environment for Voice Browser (Voice Browser를 위한 음성 인식 웹서비스 환경에 관한 연구)

  • Hong, In-Suk;Kim, Yoon-Joong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • /
    • pp.142-145
    • /
    • 2009
  • 음성인터페이스 관련 표준화는 음성 대화, 음성인식/합성, 전화망 등의 접속망을 상호 분리하여 음성정보시스템 구성요소들 각각의 상호 독립적인 개발을 보장해 주며, 각 요소의 이해가 없이도 음성정보시스템을 개발할 수 있도록 함으로써 음성정보기술의 보급 및 확산에 크게 기여하고 있다. 이에 W3C에서는 Voice Browser에 대한 표준화를 현재 진행 중에 있으며 Vocie Browser WG에서 Voice Browser를 위한 SIF(Speech Interface Framework)를 제안하였다. 제안된 SIF에서 Voice Browser가 음성인식을 실행하기 위해서는 많은 자원의 소요와 부하가 생길 수 있다. 이러한 문제점을 해결하기 위해 본 논문에서는 음성인식 웹 서비스를 기존의 SIF에 추가한 새로운 형태의 SIF를 제안하고자 한다. 음성인식은 원격 시스템에서 수행하고 그 결과를 Voice Browser가 사용할 수 있도록 음성인식 웹서비스 환경을 구축하였다. 그리고, XML-SRGS 포멧의 grammar를 음성인식기가 사용하는 EBNF 포멧의 grammar로 변환시키는 변환기를 구현하였다.

  • PDF

Comparison of Male/Female Speech Features and Improvement of Recognition Performance by Gender-Specific Speech Recognition (남성과 여성의 음성 특징 비교 및 성별 음성인식에 의한 인식 성능의 향상)

  • Lee, Chang-Young
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.5 no.6
    • /
    • pp.568-574
    • /
    • 2010
  • In an effort to improve the speech recognition rate, we investigated performance comparison between speaker-independent and gender-specific speech recognitions. For this purpose, 20 male and 20 female speakers each pronounced 300 isolated Korean words and the speeches were divided into 4 groups: female, male, and two mixed genders. To examine the validity for the gender-specific speech recognition, Fourier spectrum and MFCC feature vectors averaged over male and female speakers separately were examined. The result showed distinction between the two genders, which supports the motivation for the gender-specific speech recognition. In experiments of speech recognition rate, the error rate for the gender-specific case was shown to be less than50% compared to that of the speaker-independent case. From the obtained results, it might be suggested that hierarchical recognition of gender and speech recognition might yield better performance over the current method of speech recognition.

A New Speech Quality Measure for Speech Database Verification System (음성 인식용 데이터베이스 검증시스템을 위한 새로운 음성 인식 성능 지표)

  • Ji, Seung-eun;Kim, Wooil
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.20 no.3
    • /
    • pp.464-470
    • /
    • 2016
  • This paper presents a speech recognition database verification system using speech measures, and describes a speech measure extraction algorithm which is applied to this system. In our previous study, to produce an effective speech quality measure for the system, we propose a combination of various speech measures which are highly correlated with WER (Word Error Rate). The new combination of various types of speech quality measures in this study is more effective to predict the speech recognition performance compared to each speech measure alone. In this paper, we increase the system independency by employing GMM acoustic score instead of HMM score which is obtained by a secondary speech recognition system. The combination with GMM score shows a slightly lower correlation with WER compared to the combination with HMM score, however it presents a higher relative improvement in correlation with WER, which is calculated compared to the correlation of each speech measure alone.

Development of the Weather Forecasting Service System Based on AIN (지능망 기반 음성인식 일기예보 서비스 시스템 개발)

  • Park Sung-Joon;Kim Jae-In;Koo Myoung-Wan
    • 한국정보통신설비학회:학술대회논문집
    • /
    • /
    • pp.262-265
    • /
    • 2004
  • 본 논문에서는 음성인식을 이용한 일기예보 서비스 시스템을 소개한다. 이 서비스는 사용자가 지역명을 말하면 음성인식을 통해 그 지역명을 인식하여 일기예보를 들려주며, 차세대 지능망(AIN: Advanced Intelligent Network)에 구현되었다. 음성인식은 IP(Intelligent Peripheral)에서 이루어지며. 음성인식 실험 결과, 실험실과 시스템 상에서 각각 95.04%와 93.81%의 인식율을 보여 주었다.

  • PDF