A Stochastic Word-Spacing System Based on Word Category-Pattern

어절 내의 형태소 범주 패턴에 기반한 통계적 자동 띄어쓰기 시스템

  • 강미영 (부산대학교 컴퓨터공학과) ;
  • 정성원 (부산대학교 컴퓨터공학과) ;
  • 권혁철 (부산대학교 컴퓨터공학과)
  • Published : 2006.11.15

Abstract

This paper implements an automatic Korean word-spacing system based on word-recognition using morpheme unigrams and the pattern that the categories of those morpheme unigrams share within a candidate word. Although previous work on Korean word-spacing models has produced the advantages of easy construction and time efficiency, there still remain problems, such as data sparseness and critical memory size, which arise from the morpho-typological characteristics of Korean. In order to cope with both problems, our implementation uses the stochastic information of morpheme unigrams, and their category patterns, instead of word unigrams. A word's probability in a sentence is obtained based on morpheme probability and the weight for the morpheme's category within the category pattern of the candidate word. The category weights are trained so as to minimize the error means between the observed probabilities of words and those estimated by words' individual-morphemes' probabilities weighted according to their categories' powers in a given word's category pattern.

본 논문에서는 형태소 unigram과 한국어 어절을 형성하는 형태소 범주 패턴에 기반하여 어절을 인식하는 한국어 띄어쓰기 시스템을 구현하였다. 기존에 많이 연구된 통계 정보를 이용한 띄어쓰기 모델은 비교적 짧은 시간에 쉽게 구현할 수 있는 장점이 있지만, 한국어의 형태 유형론적 특성 때문에 발생하는 (ㄱ) 자료부족 문제와 (ㄴ) 메모리 크기 문제에 효과적으로 대처하지 못한다. 본 논문은 이 두 문제를 동시에 해결하기 위해 어절을 구성하고 있는 개별 형태소의 통계 정보와 그 형태소의 범주의 통계 정보를 기반으로 하여 띄어쓰기 후보 어절들을 추천한다. 임의의 후보 어절이 최종의 띄어쓰기 단위인 어절이 될 수 있는 확률은 (ㄱ) 해당 후보 어절 내의 각 형태소 확률과 (ㄴ) 해당 후보 어절을 구성하기 위해 그 형태소의 범주가 다른 형태소 범주와 함께 형성하는 패턴 내에서 차지하는 '범주가중치'를 고려하여 구한다. 해당 '범주가중치'는 (ㄱ) 말뭉치로부터 실제로 관찰된 어절의 확률과 (ㄴ) 후보 어절 내의 개별 형태소의 확률과 (ㄷ) 그 범주 가중치에 의해 추정된 어절 확률 사이의 평균 에러(error mean)가 최저가 되는 방향으로 학습하여 얻어진다.

Keywords

References

  1. 강승식, '음절 bigram를 이용한 띄어쓰기 오류의 자동 교정', 음성과학회 논문지, 8권 2호, pp. 83-90, 2001
  2. 신호철, '형태소 분석기를 이용한 자동 띄어쓰기 시스템 구축에 대한 연구, 한국어학, 12권, pp. 167-186, 2000
  3. 심광섭, '음절간 상호 정보를 이용한 한국어 자동 띄어쓰기' 정보과학회논문지: 소프트웨어 및 응용, 23권 9호, pp. 991-1000, 1996
  4. 심철민, 권혁철, '연어 정보에 기반한 한국어 철자 검사와 교정기의 구현', 정보과학회 논문지: 소프트웨어 및 응용, 23권 8호, pp. 776-785, 1996
  5. 이도길, 이상주, 임희석, 임해창, '한글 문장의 자동 띄어쓰기를 위한 두 가지 통계적 모델' 정보과학회 논문지: 소프트웨어 및 응용, 30권 4호, pp. 358-370, 2003
  6. Kang, M.Y., Choi S.W. and Kwon, H.CH., 'A Hybrid Approach to Automatic Word-spacing in Korean,' Lecture Notes in Computer Science (LNCS) Vol.3029, pp, 284-294, 2004
  7. Kang, S.S. and Woo C.W., Automatic Segmentation of Words Using Syllable Bigram Statistics. Proceedings of the 6th Natural Language Processing Pacific Rim Symposium, pp. 729-732, 200l
  8. Kim, S.N., Nam, H.S. and Kwon, H.CH., 'Correction Methods of Spacing Words for Improving the Korean Spelling and Grammar Checkers,' Proceedings of the 5th Natural Language Processing Pacific Rim Symposium, pp. 415-419, 1999
  9. Manning, C.D., and Schutze H., 'Foundations of Statistical Natural Language Processing,' The MIT Press, Cambridge, London, 2001
  10. Sproat R, Shih, C., Gale, W. and Chang, N. 'A Stochastic Finite-State Word-Segmentation Algorithm for Chinese,' Computational Linguistics, Vol.22 No.3, pp. 377-404, 1996
  11. 21세기 세종계획 국어기초자료 구축, 문화관광부, 2004
  12. 한국전자통신 연구원, 'ETRI 품사태그 부착 말뭉치(시험판)', 1999