Extension and Validation of Hangul Text Collection(HANTEC)

한국어 테스트 컬렉션 HANTEC의 확장 및 보완

  • Kim, Ji-Young (Dept. of Computer Science, Chungnam National University) ;
  • Jang, Dong-Hyun (Dept. of Computer Science, Chungnam National University) ;
  • Myaeng, Sung-Hyon (Dept. of Computer Science, Chungnam National University) ;
  • Lee, Suk-Hoon (Dept. of Statistics, Chungnam National University) ;
  • Seo, Jeong-Hyun (Korea Research & Development Information Center) ;
  • Kim, Hyun (Korea Research & Development Information Center)
  • 김지영 (충남대학교 컴퓨터과학과) ;
  • 장동현 (충남대학교 컴퓨터과학과) ;
  • 맹성현 (충남대학교 컴퓨터과학과) ;
  • 이석훈 (충남대학교 통계학과) ;
  • 서정현 (연구개발정보센터) ;
  • 김현 (연구개발정보센터)
  • Published : 2000.10.13

Abstract

HANTEC1.0은 12만 건의 문서집합과 30개의 질의집합, 그리고 각 질의에 대한 적합문서로 구성된 정보검색용 한글 테스트 컬렉션이다. 본 연구에서는 HANTEC1.0의 확장 및 보완하기 위해 과학기술분야 20개의 질의를 추가하였는데, 질의 추가를 위해서 일본 NACSIS 테스트 컬렉션의 질의를 번역하여 사용함으로써 한일 교차언어 검색환경을 조성하고자 하였다. 추가된 각 질의에 대해서는 여러 검색기에서 총 41가지 검색방법으로 검색한 후, 각 검색조합의 상위 50개 문서로 구성된 중간 결과집합을 만들었으며, 이를 대상으로 적합성판정에 대한 평가기준 및 절차 교육이 이루어진 평가자가 각 질의에 대한 적합성평가를 실시하였다 이렇게 구축된 HANTEC 테스트 컬렉션의 적합문서 집합의 객관적 품질 평가와 시스템 성능평가를 위하여 통계적인 방법을 적용하므로써 공신력있고 일반화된 테스트 컬렉션을 구축하고자 하였다. 현재 HANTEC2.0은 검색분야 연구자 및 개발자에게 자유롭게 배포 중이며 정보검색 시스템의 신뢰도 측정을 목적으로 하는 학술대회의 연구결과 발표 및 제품 비교 등에 활용되어질 것이다.

Keywords