Cotraining 학습을 이용한 한국어 개체명 인식

Korean Named Entity Recognition using Cotraining-based Learning

  • 이현숙 (한국전자통신연구원 휴먼정보처리연구부 지식처리연구팀) ;
  • 정의석 (한국전자통신연구원 휴먼정보처리연구부 지식처리연구팀) ;
  • 황이규 (한국전자통신연구원 휴먼정보처리연구부 지식처리연구팀) ;
  • 윤보현 (한국전자통신연구원 휴먼정보처리연구부 지식처리연구팀)
  • Lee, Hyun-Sook (Knowledge Processing Research Team, Human Information Processing Dept. Electronics and Telecommunications Research Institute) ;
  • Chung, Eui-Sok (Knowledge Processing Research Team, Human Information Processing Dept. Electronics and Telecommunications Research Institute) ;
  • Hwang, Yi-Gyu (Knowledge Processing Research Team, Human Information Processing Dept. Electronics and Telecommunications Research Institute) ;
  • Yun, Bo-Hyun (Knowledge Processing Research Team, Human Information Processing Dept. Electronics and Telecommunications Research Institute)
  • 발행 : 2002.11.15

초록

본 논문에서는 정보추출 및 정보검색, 문서요약과 같은 자연어처리 응용에서 중요한 역할을 하는 개체명 인식 모델을 제안하였다. 기존의 한국어 개체명 인식에 관한 연구는 규칙 기반 연구의 경우 수동으로 생성한 규칙이나 어휘사전에 매우 의존적이고, 통계기반의 연구의 경우 개체명이 태깅된 대량의 학습데이터를 필요로 하므로 새로운 도메인으로의 이식성 관점에서 한계가 있다. 이를 극복하기 위해 본 논문에서는 개체명이 태깅되지 않은 학습데이터를 이용하여 Cotraining 기반 학습을 수행함으로써 개체명 인식을 위한 규칙과 사전을 자동적으로 확장하였다. 실험 결과, 경제분야 문서에 대해 87.6%의 정확률을 보였다.

키워드