A Reverse Segmentation Algorithm of Compound Nouns

Lee, Hyeon-Min;Park, Hyeok-Ro;

The KIPS Transactions:PartB (정보처리학회논문지B)

Volume 8B Issue 4
/
Pages.357-364
/
2001
/
1598-284X(pISSN)

Korea Information Processing Society (한국정보처리학회)

A Reverse Segmentation Algorithm of Compound Nouns

복합명사의 역방향 분해 알고리즘

이현민 ((주)에이랩) ;
박혁로

Published : 2001.08.01

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

본 논문에서는 단위명사 사전과 접사 사전을 이용하여 한국어 복합명사를 분해하는 새로운 알고리즘을 제안한다. 한국어 복합명사는 그 구조에 있어서 중심어가 뒤에 나타난다는 점에 착안하여 본 논문에서 제안한 분해 알고리즘은 복합명사를 끝음절에서 첫음절 방향 즉 역방향으로 분해를 시도한다. ETRI의 태깅된 코퍼스로부터 추출한 복합명사 3,230개에 대해 실험한 결과 약 96.6%의 분해 정확도를 얻었다. 미등록어를 포함한 복합명사의 경우는 77.5%의 분해 정확도를 나타냈다. 실험에 사용된 데이터중의 미등록어는 대부분 접사를 포함한 파행어로서, 제안한 복합명사 분해 알고리즘은 접사가 부착된 미등록어 분석에 있어서 보다 높은 분석 정확도를 나타냄을 알 수 있었다.

Keywords

References

JoonHo Lee, HyunYang Cho, HyukRo Park, 'N-Gram based Indexing for Korean Text Retrieval,' Information Processing & Management, 35(4), 1999 https://doi.org/10.1016/S0306-4573(98)00050-8
Bo-Hyun Yun, Ho Lee, Hae-Chang Rim, 'Analysis of Korean Compound Nouns Using Statistical Information,' Proc. of the 1995 International Conference on Computer Processing of Oriental Languages, pp.76-79, 1995
Eugene Charniak, 'Statistical Language Learning,' The MIT Press, 1993
강승식, '한국어 복합명사 분해 알고리즘', 정보과학회논문지(B), 25권 1호, pp.172-182, 1998
심광섭, '음절간 상호정보를 이용한 한국어 자동 띄어쓰기', 정보과학회논문지(B), 23권 9호, pp.991-1000, 1996
심광섭, '합성된 상호 정보를 이용한 복합명사 분리', 정보과학회논문지(B), 24권 11호, pp.1307-1317, 1997
윤보현, 조민정, 임해창, '통계 정보와 선호 규칙을 이용한 한국어 복합명사의 분해', 정보과학회논문지(B), 24권 8호, pp.925-928, 1995
최재혁,' 음절수에 따른 한국어 복합명사 분리 방안', 제8회 한글 및 한국어 정보처리 학술발표논문집, pp.262-267, 1996
박혁로, 신중호, '비터비 학습 알고리즘을 이용한 한국어 복합명사 분석', 한국정보과학회 학술발표논문집, 1997
한국전자통신연구원, '전자사전 표제어 선정 지침서', 1999

The KIPS Transactions:PartB (정보처리학회논문지B)

A Reverse Segmentation Algorithm of Compound Nouns

복합명사의 역방향 분해 알고리즘

Abstract

Keywords

References

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)