An Efficient Text Mining method based on Domain Stopword Elimination

도메인 불용어 제거를 통한 효율적인 텍스트 마이닝 기법

  • Song, Jae-Sun (Dept. of Computer Science, Yon-Sei University) ;
  • Joo, Kil-Hong (Dept. of Computer Science, Yon-Sei University) ;
  • Lee, Won-Suk (Dept. of Computer Science, Yon-Sei University)
  • 송재선 (연세대학교 컴퓨터과학과) ;
  • 주길홍 (연세대학교 컴퓨터과학과) ;
  • 이원석 (연세대학교 컴퓨터과학과)
  • Published : 2003.05.16

Abstract

정보 검색 분야에서 문서 클러스터링방법은 사용자에게 양질의 다양한 정보를 제공하기 위한 방법으로 이에 대한 많은 연구가 수행되었다. 피러나 기존의 문서클러스터링 방법들은 클러스터간의 포함관계를 나타내는 계층적 관계를 표현하지 않고 의미적으로만 비슷한 내용의 문서를 묶어 여러 개의 클러스터로 나타내었다. 이에 본 논문에서는 각 문서가 속하는 도메인 별로 불용어와 키워드를 추출하여 문서클러스터링에 적용하는 알고리즘을 제안한다.

Keywords