An Improving Method of Efficiency for Word Clustering Based on Language Model

Park, Sang-Woo;Kim, Youngtae;Kang, Dong-Min;Ra, Dongyul;

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

2011.10a
/
Pages.55-60
/
2011
/
2005-3053(pISSN)

Human and Language Technology (한국정보과학회 언어공학연구회)

An Improving Method of Efficiency for Word Clustering Based on Language Model

언어모델 기반 단어 클러스터링 알고리즘의 효율성 향상 기법

Park, Sang-Woo (Computer & Telecommunications Eng. Div. Yonsei University) ;
Kim, Youngtae (Computer & Telecommunications Eng. Div. Yonsei University) ;
Kang, Dong-Min (Computer & Telecommunications Eng. Div. Yonsei University) ;
Ra, Dongyul (Computer & Telecommunications Eng. Div. Yonsei University)

박상우 (연세대학교 컴퓨터정보통신공학부) ;
김영태 (연세대학교 컴퓨터정보통신공학부) ;
강동민 (연세대학교 컴퓨터정보통신공학부) ;
나동열 (연세대학교 컴퓨터정보통신공학부)

Published : 2011.10.06

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

단어 클러스터링 (word clustering) 또는 군집화는 자연어처리에서 데이터 부족 문제로 인하여 단어 간의 의미관계와 관련된 정보를 사용하기 어렵게 만드는 문제에 대처할 수 있는 중요한 기술이다. 단어 클러스터링과 관련하여 알려진 가장 대표적인 기법으로는 클래스-기반 n-gram 언어모델의 개발을 위하여 제안된 Brown 단어 클러스터링 기법이다. 그러나 Brown 클러스터링 기법을 이용하는데 있어서 부딪치는 가장 큰 문제점은 시간과 공간적인 면에서 자원 소요량이 너무 방대하다는 점이다. 본 연구는 이 클러스터링 기법의 효율성을 개선하는 실험을 수행하였다. 실험 결과 가장 단순한(naive) 접근에 비하여 약 7.9배 이상의 속도 향상을 이룰 수 있음을 관찰하였다.

Keywords

n-gram

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

An Improving Method of Efficiency for Word Clustering Based on Language Model

언어모델 기반 단어 클러스터링 알고리즘의 효율성 향상 기법

Abstract

Keywords

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)