띄어쓰기 및 문장 경계 인식을 위한 다중 손실 선형 결합 기반의 다중 클래스 분류 시스템

Multi-class Classification System Based on Multi-loss Linear Combination for Word Spacing and Sentence Boundary Detection

  • 김기환 (동아대학교, 컴퓨터공학과) ;
  • 서지수 (동아대학교, 컴퓨터공학과) ;
  • 이경열 (동아대학교, 컴퓨터공학과) ;
  • 고영중 (동아대학교, 컴퓨터공학과)
  • Kim, GiHwan (Department of Computer Engineering, Dong-A University) ;
  • Seo, Jisu (Department of Computer Engineering, Dong-A University) ;
  • Lee, Kyungyeol (Department of Computer Engineering, Dong-A University) ;
  • Ko, Youngjoong (Department of Computer Engineering, Dong-A University)
  • 발행 : 2018.10.12

초록

띄어쓰기와 문장 경계 인식은 그 성능에 따라 자연어 분석 단계에서 오류를 크게 전파하기 때문에 굉장히 중요한 문제로 인식되고 있지만 각각 서로 다른 자질을 사용하는 문제 때문에 각각 다른 모델을 사용해 순차적으로 해결하였다. 그러나 띄어쓰기와 문장 경계 인식은 완전히 다른 문제라고는 볼 수 없으며 두 모델의 순차적 수행은 앞선 모델의 오류가 다음 모델에 전파될 뿐만 아니라 시간 복잡도가 높아진다는 문제점이 있다. 본 논문에서는 띄어쓰기와 문장 경계 인식을 하나의 문제로 보고 한 번에 처리하는 다중 클래스 분류 시스템을 통해 시간 복잡도 문제를 해결하고 다중 손실 선형 결합을 사용하여 띄어쓰기와 문장 경계 인식이 서로 다른 자질을 사용하는 문제를 해결했다. 최종 모델은 띄어쓰기와 문장 경계 인식 기본 모델보다 각각 3.98%p, 0.34%p 증가한 성능을 보였다. 시간 복잡도 면에서도 단일 모델의 순차적 수행 시간보다 38.7% 감소한 수행 시간을 보였다.

과제정보

연구 과제 주관 기관 : 한국연구재단