Development of a Framework for Semi-automatic Building Test Collection Specialized in Evaluating Relation Extraction between Technical Terminologies

기술용어 간 관계추출의 성능평가를 위한 반자동 테스트 컬렉션 구축 프레임워크 개발

  • 정창후 (한국과학기술정보연구원 정보기술연구실) ;
  • 최성필 (한국과학기술정보연구원 정보기술연구실) ;
  • 이민호 (한국과학기술정보연구원 정보기술연구실) ;
  • 최윤수 (한국과학기술정보연구원 정보기술연구실)
  • Published : 2010.02.28


Due to the increase of the attention on relation extraction systems, the construction of test collections for assessing their performance has emerged as an important task. In this paper, we propose semi-automatic framework capable of constructing test collections for relation extraction on a large scale. Based on this framework, we develop a test collection which can assess the performance of various approaches to extracting relations between technical terminologies in scientific literatures. This framework can minimize the cost of constructing this kind of collections and reduce the intrinsic fluctuations which may come from the diversity in characteristics of collection developers. Furthermore, we can construct balanced and objective collections by means of controlling the selection process of seed documents and terminologies using the proposed framework.


  1. 맹성현, 이석훈, 이준호, 이응봉, 송사광, "정보 검색 시스템 평가를 위한 균형 테스트 컬렉션 구축", 정보관리학회지, Vol.16, No.2, pp.135-148, 1999.
  2. L. Jimmy and K. Boris, "Building a Reusable Test Collection for Question Answering," Journal of the American Society for Information Science and Technology, Vol.57, No.7, pp.851-861, 2006.
  3. K. Gabriella, L. Mounia, and R. Jane, "Construction of a Test Collection for the Focussed Retrieval of Structured Documents," ECIR 2003, pp.88-103, 2003.
  4. 이경순, 김재호, 최기선, "질의응답시스템의 성능 평가를 위한 테스트컬렉션 구축", 한글 및 한국어 정보처리 학술대회, pp.190-197, 2000.
  5. 이준호, 최광남, 한현숙, 김종원, 남성원, "정보 검색 연구를 위한 KRIST 테스트 컬렉션의 개발", 정보관리학회지, Vol.12, No.2, pp.225-232, 1995.
  6. 김지영, 장동현, 맹성현, 이석훈, 서정현, 김현, "한국어 테스트 컬렉션 HANTEC의 확장 및 보완", 한글 및 한국어 정보처리 학술대회, pp.210-215, 2000.
  7. 김성혁, 서은경, 이원규, 김명철, 김영환, 김재군, " 자동색인기 성능시험을 위한 Test Set 개발", 정보관리학회지, Vol.11, No.1, pp.81-102, 1994.
  11. K. Fundel, R. Kuffner, and R. Zimmer, "RelEx - Relation extraction using dependency parse trees," Bioinformatics, Vol.23, pp.365-371, 2007.
  12. J. Ding, D. Berleant, D. Nettleton, and E. Wurtele, "Mining MEDLINE: abstracts, sentences, or phrases?," Proceedings of PSB'02, pp.326-337, 2002.
  13. C. Nedellec, "Learning language in logic - genic interaction extraction challenge," Proceedings of LLL'05, pp.31-37, 2005.
  14. A. M. George, "WordNet: A Lexical Database for English," COMMUNICATIONS OF THE ACM, Vol.38, No.11, pp.39-41, 1995.
  15. 배영준, 김재훈, 옥철영, 최윤수, "CRF를 이용한 생물/의학 전문용어 인식", 제21회 한글 및 한국어 정보처리 학술대회, pp.87-91, 2009.
  16. 김형철, 김재훈, 최윤수, "접사 정보를 이용한 영어 미등록어의 품사부착 성능개선", 제21회 한글 및 한국어 정보처리 학술대회, pp.186-190, 2009.
  17. 김형철, 서형원, 김재훈, 최윤수, "CRF를 이용한 대명사 참조해소 시스템", 제21회 한글 및 한국어 정보처리 학술대회, pp.197-201. 2009.