A Reverse Segmentation Algorithm of Compound Nouns

복합명사의 역방향 분해 알고리즘

  • Published : 2001.08.01

Abstract

본 논문에서는 단위명사 사전과 접사 사전을 이용하여 한국어 복합명사를 분해하는 새로운 알고리즘을 제안한다. 한국어 복합명사는 그 구조에 있어서 중심어가 뒤에 나타난다는 점에 착안하여 본 논문에서 제안한 분해 알고리즘은 복합명사를 끝음절에서 첫음절 방향 즉 역방향으로 분해를 시도한다. ETRI의 태깅된 코퍼스로부터 추출한 복합명사 3,230개에 대해 실험한 결과 약 96.6%의 분해 정확도를 얻었다. 미등록어를 포함한 복합명사의 경우는 77.5%의 분해 정확도를 나타냈다. 실험에 사용된 데이터중의 미등록어는 대부분 접사를 포함한 파행어로서, 제안한 복합명사 분해 알고리즘은 접사가 부착된 미등록어 분석에 있어서 보다 높은 분석 정확도를 나타냄을 알 수 있었다.

Keywords

References

  1. JoonHo Lee, HyunYang Cho, HyukRo Park, 'N-Gram based Indexing for Korean Text Retrieval,' Information Processing & Management, 35(4), 1999 https://doi.org/10.1016/S0306-4573(98)00050-8
  2. Bo-Hyun Yun, Ho Lee, Hae-Chang Rim, 'Analysis of Korean Compound Nouns Using Statistical Information,' Proc. of the 1995 International Conference on Computer Processing of Oriental Languages, pp.76-79, 1995
  3. Eugene Charniak, 'Statistical Language Learning,' The MIT Press, 1993
  4. 강승식, '한국어 복합명사 분해 알고리즘', 정보과학회논문지(B), 25권 1호, pp.172-182, 1998
  5. 심광섭, '음절간 상호정보를 이용한 한국어 자동 띄어쓰기', 정보과학회논문지(B), 23권 9호, pp.991-1000, 1996
  6. 심광섭, '합성된 상호 정보를 이용한 복합명사 분리', 정보과학회논문지(B), 24권 11호, pp.1307-1317, 1997
  7. 윤보현, 조민정, 임해창, '통계 정보와 선호 규칙을 이용한 한국어 복합명사의 분해', 정보과학회논문지(B), 24권 8호, pp.925-928, 1995
  8. 최재혁,' 음절수에 따른 한국어 복합명사 분리 방안', 제8회 한글 및 한국어 정보처리 학술발표논문집, pp.262-267, 1996
  9. 박혁로, 신중호, '비터비 학습 알고리즘을 이용한 한국어 복합명사 분석', 한국정보과학회 학술발표논문집, 1997
  10. 한국전자통신연구원, '전자사전 표제어 선정 지침서', 1999