Korean Word Segmentation and Compound-noun Decomposition Using Markov Chain and Syllable N-gram

마코프 체인 밀 음절 N-그램을 이용한 한국어 띄어쓰기 및 복합명사 분리

  • 권오욱 (한국과학기술원 뇌과학연구센터)
  • Published : 2002.04.01

Abstract

Word segmentation errors occurring in text preprocessing often insert incorrect words into recognition vocabulary and cause poor language models for Korean large vocabulary continuous speech recognition. We propose an automatic word segmentation algorithm using Markov chains and syllable-based n-gram language models in order to correct word segmentation error in teat corpora. We assume that a sentence is generated from a Markov chain. Spaces and non-space characters are generated on self-transitions and other transitions of the Markov chain, respectively Then word segmentation of the sentence is obtained by finding the maximum likelihood path using syllable n-gram scores. In experimental results, the algorithm showed 91.58% word accuracy and 96.69% syllable accuracy for word segmentation of 254 sentence newspaper columns without any spaces. The algorithm improved the word accuracy from 91.00% to 96.27% for word segmentation correction at line breaks and yielded the decomposition accuracy of 96.22% for compound-noun decomposition.

한국어 대어휘 연속음성인식을 위한 텍스트 전처리에서 띄어쓰기 오류는 잘못된 단어를 인식 어휘에 포함시켜 언어모델의 성능을 저하시킨다. 본 논문에서는 텍스트 코퍼스의 띄어쓰기 교정을 위하여 한국어 음절 N-그램을 이용한 자동 띄어쓰기 알고리듬을 제시한다. 제시된 알고리듬에서는 주어진 입력음절열은 좌에서 우로의 천이만을 갖는 마코프 체인으로 표시되고 어떤 상태에서 같은 상태로의 천이에서 공백음절이 발생하며 다른 상태로의 천이에서는 주어진 음절이 발생한다고 가정한다. 마코프 체인에서 음절 단위 N-그램 언어모델에 의한 문장 확률이 가장 높은 경로를 찾음으로써 띄어쓰기 결과를 얻는다. 모든 공백을 삭제한 254문장으로 이루어진 신문 칼럼 말뭉치에 대하여 띄어쓰기 알고리듬을 적용한 결과 91.58%의 어절단위 정확도 및 96.69%의 음절 정확도를 나타내었다. 띄어쓰기 알고리듬을 응용한 줄바꿈에서의 공백 오류 처리에서 이 알고리듬은 91.00%에서 96.27%로 어절 정확도를 향상시켰으며, 복합명사 분리에서는 96.22%의 분리 정확도를 보였다.

Keywords

References

  1. Proc. 1997 DARPA Speech Recognition Workshop Transcription of broadcast news shows with the IBM large vocabulary speech recognition system R. Bakis;S. Chen;P. Gopalakrishnan;R. Gopinath;S. Maes;L. Polymenakos;M. Franz
  2. Proc. DARPA Broadcast News Transcription The LIMSI 1998 HUB-4E Transcription system J.L. Gauvain;L. Lamel;G. Adda;M. Jardino
  3. Proc. EUROSPEECH'99, Budapest, Hungary Korean large vocabulary continuous speech recognition using pseudomorpheme uints O.W. Kwon;K. Hwang;J. Park
  4. Proc. ICASSP'95, Detroit, USA Using morphology towards better large-vocabulary speech recognition systems P. Geutner
  5. 정보과학회논문지 (B) v.23 no.9 음절간 상호 정보를 이용한 한국어 자동 띄어쓰기 심광섭
  6. 제10회 한글 및 한국어정보처리 학술대회논문집 한글 문장의 자동 띄어쓰기 강승식
  7. 정보과학회논문집 합성된 상호정보를 이용한 복합 명사 분리 심광섭
  8. 정보과학회논문지 (B) v.24 no.11 한국어 복합명사 분해 알고리즘 강승식
  9. 제8회 한글 및 한국어 정보처리 학술발표대회논문집 음절수에 따른 한국어 복합명사 분리 방안 최재혁
  10. 인지과학회 춘계학술발표논문집 한국어 형태소 분석을 위한 복합 명사의 인식방법 강승식
  11. 한국정보과학회 봄학술발표논문집 통계정보를 이용한 한국어 복합명사의 분석 방법 윤보현;임희석;임해창
  12. Proc. 14th Int. Conf. Computaitonal Linguistics Word identification for mandarin Chinese sentence K.H. Chen;S.H. Liu
  13. Proc. 16th Int. Conf. Computational Linguistics Analysis of Japanese compound nouns by direct text scanning T. Hisamitsu;Y. Nitta
  14. Proc. 14th Int. Conf. Computational Linguistics Broad converage automatic morphological segmentation of German words T. Pachunke;O. Mertineit;K. Wothke;R. Schimidt
  15. Random Variables, and Stochastic Processes A. Popoulis;Porbability
  16. An Introduction to Probability Theory and Its Applications (3rd ed.) v.1 W. Feller
  17. Fundamentals of Speech Recognition L.R. Rabiner;B.H. Juang
  18. Proc. EUROSEECH'97 Statistical language modeling using the CMU-Cambridge toolkit P. Clarkson;R. Rosenfeld
  19. IEEE Trans. Acoustics, Speech, and Signal Processing v.35 Estimation of probabilitie from sparse data for the language model component of a speech reconizer S.M. Katz https://doi.org/10.1109/TASSP.1987.1165125