DOI QR코드

DOI QR Code

A Spelling Error Correction Model in Korean Using a Correction Dictionary and a Newspaper Corpus

교정사전과 신문기사 말뭉치를 이용한 한국어 철자 오류 교정 모델

  • 이세희 (강원대학교 컴퓨터정보통신공학) ;
  • 김학수 (강원대학교 컴퓨터정보통신공학)
  • Published : 2009.10.31

Abstract

With the rapid evolution of the Internet and mobile environments, text including spelling errors such as newly-coined words and abbreviated words are widely used. These spelling errors make it difficult to develop NLP (natural language processing) applications because they decrease the readability of texts. To resolve this problem, we propose a spelling error correction model using a spelling error correction dictionary and a newspaper corpus. The proposed model has the advantage that the cost of data construction are not high because it uses a newspaper corpus, which we can easily obtain, as a training corpus. In addition, the proposed model has an advantage that additional external modules such as a morphological analyzer and a word-spacing error correction system are not required because it uses a simple string matching method based on a correction dictionary. In the experiments with a newspaper corpus and a short message corpus collected from real mobile phones, the proposed model has been shown good performances (a miss-correction rate of 7.3%, a F1-measure of 97.3%, and a false positive rate of 1.1%) in the various evaluation measures.

인터넷 및 모바일 환경의 빠른 발전과 함께 신조어나 줄임말과 같은 철자 오류들을 포함하는 텍스트들이 활발히 통용되고 있다. 이러한 철자 오류들은 텍스트의 가독성을 떨어뜨림으로써 자연어처리 응용들을 개발하는데 걸림돌이 된다. 이러한 문제를 해결하기 위해서 본 논문에서는 철자오류 교정사전과 신문기사 말뭉치를 이용한 철자 오류 교정 모델을 제안한다. 제안 모델은 구하기 쉬운 신문기사 말뭉치를 학습 말뭉치로 사용하기 때문에 데이터 구축비용이 크지 않다는 장점이 있다. 또한 교정사전 기반의 단순 매칭 방법을 사용하기 때문에 띄어쓰기 교정 시스템이나 형태소 분석기와 같은 별도의 외부 모듈이 필요 없다는 장점이 있다. 신문기사 말뭉치와 실제 휴대폰에서 수집한 문자 메시지 말뭉치를 이용한 실험 결과, 제안 모델은 다양한 평가 척도에서 비교적 높은 성능(오교정률 7.3%, F1-척도 97.3%, 위양성율 1.1%)을 보였다.

Keywords

References

  1. 조동욱, 이현경, "인터넷 상에서 쓰이는 통신 언어에 대한 분석 및 문제점 해결 방안", 한국콘텐츠학회/한국통신학회 2003 추계 종합학술대회 논문집, 제1권 제2호, pp.79-83, 2003.
  2. 노형종, 차정원, 이근배, "띄어쓰기 및 철자 오류 동시교정을 위한 통계적 모델", 정보과학회논문지: 소프트웨어 및 응용, 제 34권 제2호, pp.131-139, 2007.
  3. Stehanie Jacquemont, Francois Jacquenet, Marc Sebban "Correct your text with Google", 2007 IEEE/WIC/ACM International Conference on Web Intelligence, pp.170-176, 2007. https://doi.org/10.1109/WI.2007.38
  4. Johannes Schaback "Multi-Level Feature Extraction for Spelling Correction", IJCAI-2007 Workshop on Analytics for Noisy Unstructured Text Data, pp.78-86, 2007.
  5. Eric Brill, Robert C. Moore, "An Improved Error Model for Noisy Channel Spelling Correction", In Proc. of the 38th Annual Meeting of the ACL, pp.286-293, 2000. https://doi.org/10.3115/1075218.1075255
  6. 윤근수, 권혁철, "교정률 최적화를 위한 한국어 철자교정기의 모듈 배열", 정보과학회논문지: 소프트웨어 및 응용, 제32권 제 5호, pp.366-377, 2005.
  7. 강승식, 장두성, "SMS 변형된 문자열의 자동 오류 교정 시스 템", 정보과학회논문지: 소프트웨어 및 응용, 제35권 제6호, pp.386-391, 2008.
  8. 이주호, 김학수, "2단계 규칙을 이용한 해체된 한글 음절의 결 합", 인지과학, 제19권 제3호, pp.283-295, 2008.
  9. H. L. Lou, "Implementing the Viterbi Algorithm, Fundamental and real-time issues for processor designers", IEEE Signal Processing Magazine, pp.42-52, 1995. https://doi.org/10.1109/79.410439
  10. 조오현, 김경용, 박동근, "통신언어의 실태와 개선 방안", 통신 언어 어휘집, 문화관광부, 2001
  11. 김현준, 정재은, 조근식, "가중치가 부여된 베이지안 분류자를 이용한 스팸 메일 필터링 시스템", 정보과학회논문지: 소프트 웨어 및 응용, 제31권 제8호, pp.1092-1100, 2004.