TagBench: a Tool for Building Large Corpora

TagBench: 대용량 말뭉치 구축을 위한 언어 정보 부착 도구

  • Seo, Hyeong-Won (Department of Computer Engineering, Korea Maritime University) ;
  • Choi, Myung-Kil (Department of Computer Engineering, Korea Maritime University) ;
  • Nam, Yoo-Rim (Department of Computer Engineering, Korea Maritime University) ;
  • Kwon, Hong-Beok (Department of Computer Engineering, Korea Maritime University) ;
  • Kim, Jae-Hoon (Department of Computer Engineering, Korea Maritime University)
  • 서형원 (한국해양대학교 컴퓨터공학과) ;
  • 최명길 (한국해양대학교 컴퓨터공학과) ;
  • 남유림 (한국해양대학교 컴퓨터공학과) ;
  • 권홍석 (한국해양대학교 컴퓨터공학과) ;
  • 김재훈 (한국해양대학교 컴퓨터공학과)
  • Published : 2012.10.06

Abstract

본 논문은 자연언어처리에 필요한 여러 언어 정보를 구축하기 위한 도구를 설계하고 구현하였다. 본 논문에서 제안한 부착 도구는 기본적으로 형태소, 구묶음, 기반구의 품사 정보를 부착하고 추가적으로 명사에 대해서는 각 요소의 의미정보를 부착한다. 또한 형태소와 구묶음의 경우에는 사전형 정보를 부착함으로써 사전 구축 등 보다 폭넓게 사용될 수 있도록 하였다. 언어정보 부착에 있어서 가장 어려운 점은 어떻게 여러 작업자들이 일관성을 유지하느냐이다. 이를 위해 본 논문에서는 각 작업자들이 다른 작업자들의 부착 결과를 쉽게 참조하여 보다 손쉽게 수정할 수 있도록 설계되었다. 또한 기존에 잘못 부착된 정보를 발견하면 이를 쉽게 고칠 수 있도록 하였으며 또한 유사한 오류를 검색할 수 있도록 하여 쉽게 수정할 수 있도록 하였다.

Keywords