Automatic Detection and Extraction of Transliterated Foreign Words Using Hidden Markov Model

은닉 마르코프 모델을 이용한 음차표기된 외래어의 자동인식 및 추출 기법

  • 오종훈 (한국과학기술원 전자전산학과/전문용어언어공학 연구센터) ;
  • 최기선 (한국과학기술원 전자전산학과/전문용어언어공학 연구센터)
  • Published : 2001.09.01

Abstract

In this paper, we describe an algorithm for transliterated foreign word extraction in Korean language. In the proposed method we reformulate the transliterated foreign word extraction problem as a syllable-tagging problem such that each syllable is tagged with a transliterated foreign syllable tag or a pure Korean syllable tag. Syllable sequences of Korean strings ale modeled by Hidden Markov Model whose state represents a character with binary marking to indicate whether the character forms a Korean word or not. The proposed method extracts a transliterated foreign word with high recall rate and precision rate. Moreover, our method shows good performance even with small-sized training corpora.

본 논문에서는 한국어문서에서 음차표기된 외래어를 자동적으로 인식 및 추출하는 알고리즘을 제안한다. 제안된 방법에서는 음차표기된 외래어 인식 및 추출 문제를 음절태깅문제로 변환한다. 음절태깅문제는 주어진 단어 내의 음절들에 대하여 순수 한국어를 구성하는 음절인지 또는 음차표기된 외래어를 구성하는 음절인지를 태깅하는 작업으로 정의된다. 이를 위하여. 주어진 어절 내의 음절의 나열을 순수 한국어 음절을 표현하는 상태와 외래어 음절을 표현하는 상태의 이진 상태(binary state)로 모델링한 은닉 마르코프 모델을 이용한다. 제안된 방법은 기존 연구에 비하여 높은 재현율과 정확률로 음차표기된 외래어를 인식 및 추출하였다.

Keywords

References

  1. 정보과학회 논문지(B) v.26 no.10 외국어 음차표기의 음성적 유사도 비교 알고리즘 강병주;이재성;최기선
  2. 한국정보과학회 춘계학술발표논문집 v.22 no.1 한국어 자동 색인을 위한 형태소 분석 기능 강승식
  3. 1996년도 한국정보과학회 인공지능 연구회 춘계학술 대회 한국어 정보검색을 위한 시험용 데이터 모음 2.0 개발 박영찬;최기선;김재군;김영환
  4. 제11회 한글 및 한국어 정보처리 학술대회 은닉 마르코프 모델을 이용한 과학기술문서에서의 외래어 추출 모델 오종훈;최기선
  5. 다국어 정보검색을 위한 영-한 음차표기 및 복원 모델 이재성
  6. 정보관리학회지 v.12 no.2 정보검색 연구를 위한 KRIST 테스트 컬렉션의 개발 이준호;최광남;한현숙;김종원;남성원
  7. 한국정보과학회 추계학술발표논문집 v.24 no.2 외래어와 영어처리를 통한 검색효과 향상 정길순;권윤형;맹성현
  8. Natural Language Understanding Allen James
  9. Hidden Markov Models for Speech Recognition Huang, X. D.;Y. Ariki;M. A. Jack
  10. In the Proceeding of the International Workshop on Information Retrival with Asian Languages(IRAL '2000) Two approaches for the Resolution of Word Mismatch Problem Caused by English Word and Various Korean Trasliterations in Korean Information Retrieval Kang, B. J.;K. S. Choi
  11. Proc. of the 17th International Conference on Computer Processing of Oriental Languages Foreign Word Identification Using a Statistical Method for Information Retrieval Kwon, Y. H.;Jeong, K. S.;Myaeng, S. H.
  12. Proc. of International Workshop on Information Retrieval with Asian Languages(IRAL '97) The Effect of a Proper Handling of Foreign and English Words in Retrieving Korean Text Myaeng, S. H.;Kwon, Y. H.;Jeong, K. S.
  13. In Proceedings of the IEEE v.77 Tutorial on hidden Markov models and selected applications in speech recognition Rabiner, L.
  14. Introduction to Modern Information Retrival Salton, G;McGill, M.