• 제목/요약/키워드: Phonetic-acoustic characteristic

검색결과 9건 처리시간 0.023초

마이크로폰의 종류에 따른 음성인식성능의 검토 (The Validation of Speech Recognition Performance according to Microphones)

  • 김연화;이광현;정영조;김봉완;이용주
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 5월 학술대회지
    • /
    • pp.183-186
    • /
    • 2003
  • Speech recognition performance depends on various factors. One of the factors is the characteristic of a microphone which is used when speech data is collected. Thus, in the present experiment speech databases for tests are created through varying types of microphones. Then, acoustic models are built based on these databases, and each of the acoustic models is assessed by the data to determine recognition performance depending on various microphones.

  • PDF

음소 음향학적 변화 정보를 이용한 한국어 음성신호의 자동 음소 분할 (Automatic Phonetic Segmentation of Korean Speech Signal Using Phonetic-acoustic Transition Information)

  • 박창목;왕지남
    • 한국음향학회지
    • /
    • 제20권8호
    • /
    • pp.24-30
    • /
    • 2001
  • 본 논문에서는 발음표기가 주어진 상황에서 음성 신호의 자동 음소 분할에 관한 것이며 음소의 경계를 음소 음향학적인 변화특성에 따라 3가지 형태로 분류하여 각각에 적합한 분할 알고리즘을 개발하였다. 형태 1은 묵음·유성음·무성음간의 분할이며 히스토그램분석으로 구한 문턱 값으로 초기 분할 후, 웨이블릿 계수의 SVF (Spectral Variation Function)를 이용하여 분할하였다. 형태 2는 연속적인 모음의 분할이며 각 모음변화특성을 템플릿으로 구성하여 분할에 활용하였다. 형태 3은 모음과 유성자음 혹은 유성화 자음의 분할이며 특성주파수대역의 진폭변화를 이용하여 후보구간을 정한 후, 캡스트럼 계수의 SVF를 이용하여 최종적인 분할을 수행하였다. 본 실험에서는 분할 성능을 테스트하기 위하여 한국어 PBWSpeech DB에서 342개의 단어를 자동으로 분할한 후, 수작업으로 분할한 결과와 비교하였다. 전체적인 자동 분할 성능은 20 msec내에서 81.5%의 분할성능을 보였다.

  • PDF

음성 인식/합성을 위한 국어의 음성-음운론적 특성 연구 (A Study of Korean Phonetic and Phonological Properties for Speech Recognition and Synthesis)

  • 정국;구희산;이찬도;김종미;한선희
    • 한국음향학회지
    • /
    • 제13권6호
    • /
    • pp.31-44
    • /
    • 1994
  • 본 논문은 국어 음성 인식 및 합성을 위한 음운$\cdot$음성학적인 기초 연구 몇가지를 포괄적으로 소개하고자 한다. 그 구체적인 내용은 첫째, 분절음의 음운론적 특성연구로서, 분절음의 변이 목록및 컴퓨터 입력 기호의 작성, 둘째, 분절음의 음성학적 특성 연구로서, 단어내 자음의 위치에 따라 음향 파라메타를 조정하는 시범안 제시, 세째, 운율의 음운론적 특성 연구로서 운율 자질들의 음운론적 기능과 인식 단서의 제시, 네째, 운율의 음성학적 특성 연구로서 표준 한국어의 악센트와 억양 패턴의 제시, 다섯째, 음성 인식 및 합성에의 국어 음성$\cdot$음운 지식의 활용 방안 제시이다.

  • PDF

마이크로폰의 종류 및 설치거리에 따른 음성인식성능변화의 검토 (The Validation of Speech Recognition Performance Change according to the kind and established distance of the Microphone)

  • 김연화;이광현;최대림;김봉완;이용주
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 10월 학술대회지
    • /
    • pp.141-143
    • /
    • 2003
  • Speech recognition performance depends on various factors. One of the factors is the characteristic and established distance of a microphone which is used when speech data is collected. Thus, in the present experiment speech databases for tests are created through the type and established distance of a microphone. Then, acoustic models are built based on these databases, and each of the acoustic models is assessed by the data to determine recognition performance depending on various microphones and established microphone distances.

  • PDF

모방 발화의 음향음성학적 연구(3) -전문 성대 모사자의 자료를 중심으로- (An Acoustic Study on the Voice Imitation(3) - Based on a professional voice imitator′s speech -)

  • 안병섭;박미영
    • 대한음성학회지:말소리
    • /
    • 제52호
    • /
    • pp.1-14
    • /
    • 2004
  • In this study, we investigated acoustic characteristics of imitated utterances by a professional voice imitator, focusing on prosodic properties such as vowel formants and f0 distribution. To see the patterns of a voice imitation by a professional voice imitator, we compared the imitator's voice data with target speakers' voice data. The professional imitator, Mr. Bae produced utterances imitating the former President Kim's, the comedian Choi's, and the singer Bae's voices. Auditorily, the imitator was judged to imitate all the target speakers' voices successfully. However, acoustic examination showed that the imitator was better at imitating the singer Bae's voice in that the imitator's and the singer Bae's voices are more alike with respect to vowel formants and f0 distribution. We infer this is because the imitator's normal voice is very similar to the singer Bae's voice. On the other hand, the imitator's voice data showed that the patterns of vowel formants and f0 distribution found in the imitator's imitation voices of the other two target speakers were different from those of target speakers' voices.

  • PDF

음성인식에서 문맥의존 음향모델의 성능향상을 위한 유사음소단위에 관한 연구 (A Study on Phoneme Likely Units to Improve the Performance of Context-dependent Acoustic Models in Speech Recognition)

  • 임영춘;오세진;김광동;노덕규;송민규;정현열
    • 한국음향학회지
    • /
    • 제22권5호
    • /
    • pp.388-402
    • /
    • 2003
  • In this paper, we carried out the word, 4 continuous digits. continuous, and task-independent word recognition experiments to verify the effectiveness of the re-defined phoneme-likely units (PLUs) for the phonetic decision tree based HM-Net (Hidden Markov Network) context-dependent (CD) acoustic modeling in Korean appropriately. In case of the 48 PLUs, the phonemes /ㅂ/, /ㄷ/, /ㄱ/ are separated by initial sound, medial vowel, final consonant, and the consonants /ㄹ/, /ㅈ/, /ㅎ/ are also separated by initial sound, final consonant according to the position of syllable, word, and sentence, respectively. In this paper. therefore, we re-define the 39 PLUs by unifying the one phoneme in the separated initial sound, medial vowel, and final consonant of the 48 PLUs to construct the CD acoustic models effectively. Through the experimental results using the re-defined 39 PLUs, in word recognition experiments with the context-independent (CI) acoustic models, the 48 PLUs has an average of 7.06%, higher recognition accuracy than the 39 PLUs used. But in the speaker-independent word recognition experiments with the CD acoustic models, the 39 PLUs has an average of 0.61% better recognition accuracy than the 48 PLUs used. In the 4 continuous digits recognition experiments with the liaison phenomena. the 39 PLUs has also an average of 6.55% higher recognition accuracy. And then, in continuous speech recognition experiments, the 39 PLUs has an average of 15.08% better recognition accuracy than the 48 PLUs used too. Finally, though the 48, 39 PLUs have the lower recognition accuracy, the 39 PLUs has an average of 1.17% higher recognition characteristic than the 48 PLUs used in the task-independent word recognition experiments according to the unknown contextual factor. Through the above experiments, we verified the effectiveness of the re-defined 39 PLUs compared to the 48PLUs to construct the CD acoustic models in this paper.

병적인 소리 떨림증과 소리꾼 떨림증의 음향학적인 비교연구 (The comparative Study of the Acoustic Representation between Pansori singer's and Spasmodic dysphonia patient's Voice)

  • 홍기환;김현기;이진국;조재식
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2007년도 한국음성과학회 공동학술대회 발표논문집
    • /
    • pp.143-145
    • /
    • 2007
  • Muscle groups that are located in and around the vocal tract can produce audible changes in frequency and/or intensity of the voice. Vocal vibrato is a characteristic feature in the singing of performers trained in the western classical tradition and vibrato is generally considered to result from modulation in frequency amplitude and timbre. Vocal tremor is also characterized by periodic fluctuations in the voice frequency or intensity and vocal tremor is symptom of a neurological disease as Spasmodic dysphonia , Parkinson's disease. Vocal vibrato and Vocal tremor may have many of the same origins and mechanisms in the voice production systems. The purpose of this study is to find acostic character of Korean traditional song Pansori singer's vibrato and Spasmodic dysphonia patient's vocal tremor. twelve Pansori singers and seven Spasmodic dysponia patients participated to this study. Power spectrum and Real time Spectrogram are used to analyze the acoustic characteristics of Pansori singing and Spasmodic dysphonia patient's voice The results are as follows; First, vowel formant differences between Pansori singing and Spasmodic dysphonia patient's voice are higher F1, F3. Second, The vibrato rate show differences between Pansori singing and Spasmodic dysphonia patients;$4^{\sim}6/sec$ and $5{\sim}6/sec$ Vibrato rate of pitch is 5.7 Hz ${\sim}$ 42.4 Hz for Pansori singing , 3.8 Hz ${\sim}$ 27.9 Hz for Spasmodic dysphonia patients ;Vibrato rate of intensity range is 0.07 dB ${\sim}$ 8.26 dB for Pansori singing and 0.07 dB ${\sim}$ 4.81 dB for Spasmodic dysphonia patients

  • PDF

계몽주의 시대 프랑스 문법서에서 기술한 운율 현상과 국제음성기호의 출발에 대한 고찰 (Notes on Descriptions of the Prosodic System in French Grammars in the Age of Enlightenment & the Departure of the International Phonetic Alphabet)

  • 박문규
    • 한국콘텐츠학회논문지
    • /
    • 제21권4호
    • /
    • pp.658-667
    • /
    • 2021
  • 본 연구는 계몽주의 시대에 프랑스 문법서에서 기술한 다양한 운율을 현대 음성학적 관점에서 분석하고 국제음성기호의 효시가 된 도상표기법을 소개하는 것을 목적으로 한다. 세 권의 문법서와 한 권의 표기법 서적을 비교·분석하여 운율 구조를 음성학적으로 재구성하는 연구방법을 도입하였다. 당시에는 규칙성이 있는 운율악센트와 의미적·화용적 맥락에서 발생하는 웅변악센트로 악센트를 분류하여 분석을 시도한 점이 대표적이다. 운율악센트는 억양과 관계가 있으며, 웅변악센트는 억양과 세기가 중요한 운율 자질이다. 여러 문법학자에 의하여 공통적으로 관찰된 현상은 단어의 말음절 장음화이다. 현대프랑스어 악센트의 중요한 특징인 말음절 장음화는 18세기에 자리 잡은 것으로 추정할 수 있다. 다만 억양을 악센트와 동일시하는 관습 때문에 말음절 장음화를 악센트로 보지 않고 단순히 음량의 패턴으로 간주한 것으로 보인다. 또한, 억양을 통한 악센트에 관한 기술이 이전 세기의 일반이성문법학자보다 덜 정교함을 보여주었다. 운율악센트의 위치를 정확히 명시하지 않은 점, 웅변악센트에 음의 고저와 세기가 어떻게 결합되는지에 대한 설명이 부재한 점이 대표적이다. 18세기의 문법가들이 운율에 관하여 기술한 내용을 분석하면 당시의 운율 현상은 전반적으로 오늘날의 프랑스어 운율 현상과 유사하다. 현대 음성학적 관점에서 보면 말음절 장음화가 프랑스어 악센트의 중요한 특성으로 자리 잡은 시기가 바로 18세기인 것이다.

언어재활사의 주관적 음성피로도와 관련된 음향적 특성 (Acoustic characteristics of speech-language pathologists related to their subjective vocal fatigue)

  • 전혜원;김지연;성철재
    • 말소리와 음성과학
    • /
    • 제14권3호
    • /
    • pp.87-101
    • /
    • 2022
  • 대전·충남지역 20-30대 여성 언어재활사 50명을 대상으로 주관적 음성 피로도 설문과 더불어 하루 4회기를 기준으로 언어치료 전/후 음성 샘플 수집을 하였다. 연구 결과, Korean Vocal Fatigue Index의 음성 피로로 인한 음성 사용회피 항목과 음성 사용으로 인한 신체 피로 항목에서 피로 집단과 피로 없는 집단 간 유의한 차이가 있었다. 두 집단의 음향음성학적 특성과 관련하여, 두 집단 모두 치료 후 저주파 대역 에너지가 상대적으로 낮아지고 고주파 대역 에너지가 상승하는 패턴을 보였다. 이러한 특징이 분산분석 결과, 주 효과로 나타난 low to high-ratio[t1(time.1)>t2(time.2)], slope_ltas(t2>t1), 3rd formant's energy(t1>t2), high energy(t2>t1) 등에 잘 반영되어 있다. 집단 간 차이는 음향변수들 중 치료 전 모음 연장발성 스펙트럼 저주파 대역의 에너지인 low energy에서만 관찰되었고 피로 없는 집단의 값이 더 컸다(no.fatigue>fatigue in t1). 음향변수에서의 이러한 특징과 더불어 치료 세션 후 피로 없는 집단의 연결발화에서의 왜도 증가는 장시간의 목소리 노동으로 인한 성대 과긴장(higher muscle tonus)과 목소리 남용 때문으로 해석할 수 있다. 섭동변수 shimmer_local은 피로 없는 집단이 언어치료 후 낮아졌고(t1>t2), 켑스트럼 변수인 RNR(rhamonics to noise ratio)은 언어치료 후 값이 높아졌다(t2>t1). NHR(noise to harmonic ratio)은 두 집단 모두 치료 후 낮아졌다. NHR의 감소와 shimmer_local의 하강은 치료 세션을 진행하면서 발성 과정이 안정화되었거나 혹은 전문 지식이 있는 언어재활사(특히 피로 없는 집단)들의 효율적 목소리 사용이 기여했다고 결론지을 수 있다. 피로 없는 집단의 경우는 치료 후에 RNR값이 유의하게 커졌으므로 치료 후 오히려 조화음(harmonic) 구조가 더 안정되었다고도 말할 수 있을 것이다.