An Improving Method of Efficiency for Word Clustering Based on Language Model

언어모델 기반 단어 클러스터링 알고리즘의 효율성 향상 기법

  • Park, Sang-Woo (Computer & Telecommunications Eng. Div. Yonsei University) ;
  • Kim, Youngtae (Computer & Telecommunications Eng. Div. Yonsei University) ;
  • Kang, Dong-Min (Computer & Telecommunications Eng. Div. Yonsei University) ;
  • Ra, Dongyul (Computer & Telecommunications Eng. Div. Yonsei University)
  • 박상우 (연세대학교 컴퓨터정보통신공학부) ;
  • 김영태 (연세대학교 컴퓨터정보통신공학부) ;
  • 강동민 (연세대학교 컴퓨터정보통신공학부) ;
  • 나동열 (연세대학교 컴퓨터정보통신공학부)
  • Published : 2011.10.06

Abstract

단어 클러스터링 (word clustering) 또는 군집화는 자연어처리에서 데이터 부족 문제로 인하여 단어 간의 의미관계와 관련된 정보를 사용하기 어렵게 만드는 문제에 대처할 수 있는 중요한 기술이다. 단어 클러스터링과 관련하여 알려진 가장 대표적인 기법으로는 클래스-기반 n-gram 언어모델의 개발을 위하여 제안된 Brown 단어 클러스터링 기법이다. 그러나 Brown 클러스터링 기법을 이용하는데 있어서 부딪치는 가장 큰 문제점은 시간과 공간적인 면에서 자원 소요량이 너무 방대하다는 점이다. 본 연구는 이 클러스터링 기법의 효율성을 개선하는 실험을 수행하였다. 실험 결과 가장 단순한(naive) 접근에 비하여 약 7.9배 이상의 속도 향상을 이룰 수 있음을 관찰하였다.

Keywords