Clausal Segmentation for Event Sentences Using Named Entity Co-occurrence Information

개체명 공기 정보를 이용한 이벤트 문장의 단문 구조 분석

  • Lim, Soo-Jong (Knowledge Processing Research Team Electronics and Telecommunications Research Institute) ;
  • Kim, Tae-Hyun (Knowledge Processing Research Team Electronics and Telecommunications Research Institute) ;
  • Hwang, Yi-Gyu (Knowledge Processing Research Team Electronics and Telecommunications Research Institute) ;
  • Yun, Bo-Hyun (Knowledge Processing Research Team Electronics and Telecommunications Research Institute)
  • 임수종 (한국전자통신연구원 지식처리연구팀) ;
  • 김태현 (한국전자통신연구원 지식처리연구팀) ;
  • 황이규 (한국전자통신연구원 지식처리연구팀) ;
  • 윤보현 (한국전자통신연구원 지식처리연구팀)
  • Published : 2002.11.15

Abstract

정보추출이란 자연어로 작성된 문서 집합에서 원하는 정보를 선택하여 구조화된 표현으로 생성하는 것을 말한다. 문장 단위로 정보 추출 작업을 수행할 때 추출되는 정보를 보유한 문장을 이벤트 문장이라고 정의하고 이러한 이벤트 문장의 구조를 분석하여 최종적으로 유용한 정보를 추출하기 위해서는 이벤트 문장의 구조를 파악하기 위해 이벤트 문장을 단문으로 분할하여 구조를 분석한다. 본 연구에서는 단문 구조 분석을 위해 일반적인 한국어 문장의 특성과 용언의 조사 정보를 이용하고 이러한 정보로 분석할 수 없는 문장에 대해서는 공기 정보를 사용한다. 사용되는 공기 정보는 개체명이 많이 사용되는 이벤트 문장의 특성을 이용하기 위하여 개체명으로 확장된 명사(개체명)-조사-용언의 공기 정보를 구축하여 사용한다. 개체명 확장된 공기 정보는 일반 공기 정보에 비해 이벤트 문장에서 F-Measure 기준으로 약 2%의 성능향상을 보인다.

Keywords