Learning of Large-Scale Korean Character Data through the Convolutional Neural Network

Convolutional Neural Network를 통한 대규모 한글 데이터 학습

  • Published : 2016.05.25

Abstract

Using the CNN(Convolutinal Neural Network), Deep Learning for variety of fields are being developed and these are showing significantly high level of performance at image recognition field. In this paper, we show the test accuracy which is learned by large-scale training data, over 5,000,000 of Korean characters. The architecture of CNN used in this paper is KCR(Korean Character Recognition)-AlexNet newly created based on AlexNet. KCR-AlexNet finally showed over 98% of test accuracy. The experimental data used in this paper is large-scale Korean character database PHD08 which has 2,187 samples for each Korean character and there are 2,350 Korean characters that makes total 5,139,450 sample data. Through this study, we show the excellence of architecture of KCR-AlexNet for learning PHD08.

CNN(Convolutinal Neural Network)을 사용하여 다양한 분야에 대한 심화 학습이 진행되고 있으며 이미지 인식 분야에서 특히 높은 성능을 보이고 있다. 본 논문에서는 5,000,000개 이상의 대규모 한글 문자 데이터베이스를 사용하여 한글을 Convolutional Neural Network에 학습 시킨 후 테스트 정확도를 확인한다. 실험에 사용된 CNN 구조는 AlexNet에 기반하여 새로 만들어진 KCR(Korean Character Recognition)-AlexNet 이며 학습 결과 98% 이상의 테스트 정확도를 보였다. 실험에 사용된 데이터베이스는 대규모 한글 데이터 데이터베이스인 PHD08로 총 2,350개의 한글 문자에 대해 각 문자마다 2,187개의 샘플을 가져 총 5,139,450 개의 데이터가 존재한다. 본 연구를 통해 KCR-AlexNet이 한글 데이터베이스인 PHD08을 학습하는데 우수한 구조임을 보인다.

Keywords