Korean Compound Nouns Decomposition Suitable for Embedded Systems

임베디드 시스템에 적합한 한국어 복합명사 분해

  • Choi, Min-Seok (Korea Maritime and Ocean University, Department of Computer Engineering) ;
  • Kim, Chang-Hyun (Korea Maritime and Ocean University, Department of Computer Engineering) ;
  • Cheon, Min-Ah (Korea Maritime and Ocean University, Department of Computer Engineering) ;
  • Park, Ho-Min (Korea Maritime and Ocean University, Department of Computer Engineering) ;
  • Namgoong, Young (Korea Maritime and Ocean University, Department of Computer Engineering) ;
  • Yoon, Ho (Korea Maritime and Ocean University, Department of Computer Engineering) ;
  • Kim, Jae-Hoon (Korea Maritime and Ocean University, Department of Computer Engineering)
  • 최민석 (한국해양대학교, 컴퓨터공학과) ;
  • 김창현 (한국해양대학교, 컴퓨터공학과) ;
  • 천민아 (한국해양대학교, 컴퓨터공학과) ;
  • 박호민 (한국해양대학교, 컴퓨터공학과) ;
  • 남궁영 (한국해양대학교, 컴퓨터공학과) ;
  • 윤호 (한국해양대학교, 컴퓨터공학과) ;
  • 김재훈 (한국해양대학교, 컴퓨터공학과)
  • Published : 2018.10.12

Abstract

복합명사는 둘 이상의 말이 결합된 명사를 말하며 문장에서 하나의 단어로 간주된다, 그러나 맞춤법 및 띄어쓰기 검사나 정보검색의 색인어 추출, 기계번역의 미등록어 추정 등의 분야에서는 복합명사를 구성하는 개별 단어를 확인할 필요가 있다. 이 과정을 복합명사 분해라고 한다. 복합명사를 분해하는 방법으로 크게 규칙 기반 방법, 통계 기반 방법 등이 있으며 본 논문에서는 규칙을 기반으로 최소한의 통계 정보를 이용하는 방법을 제안한다. 본 논문은 4개의 분해 규칙을 적용하여 분해 후보를 생성하고 분해 후보들 중에 우선순위를 정하여 최적 후보를 선택하는 방법을 제안한다. 기본 단어(명사)로 트라이(trie)를 구축하고 구축된 트라이를 이용하여 양방향 최장일치를 적용하고 음절 쌍의 통계정보를 이용해서 모호성을 제거한다. 성능을 평가하기 위해 70,000여 개의 명사 사전과 음절 쌍 통계정보를 구축하였고, 이를 바탕으로 복합명사를 분해하였으며, 분해 정확도는 단어 구성비를 반영하면 96.63%이다. 제안된 복합명사 분해 방법은 최소한의 데이터를 이용하여 복합명사 분해를 수행하였으며 트라이 자료구조를 사용해서 사전의 크기를 줄이고 사전의 검색 속도를 개선하였다. 그 결과로 임베디드 시스템과 같은 소형 기기의 환경에 적합한 복합명사 분해 시스템을 구현할 수 있었다.

Acknowledgement

Grant : 지식 증강형 실시간 동시통역 원천기술 개발

Supported by : 정보통신기술진흥센터, 한국연구재단