DOI QR코드

DOI QR Code

A Study on Patent Literature Classification Using Distributed Representation of Technical Terms

기술용어 분산표현을 활용한 특허문헌 분류에 관한 연구

  • 최윤수 (경기대학교 일반대학원 문헌정보학과) ;
  • 최성필 (경기대학교 휴먼인재융합대학 문헌정보학과)
  • Received : 2019.03.28
  • Accepted : 2019.05.20
  • Published : 2019.05.31

Abstract

In this paper, we propose optimal methodologies for classifying patent literature by examining various feature extraction methods, machine learning and deep learning models, and provide optimal performance through experiments. We compared the traditional BoW method and a distributed representation method (word embedding vector) as a feature extraction, and compared the morphological analysis and multi gram as the method of constructing the document collection. In addition, classification performance was verified using traditional machine learning model and deep learning model. Experimental results show that the best performance is achieved when we apply the deep learning model with distributed representation and morphological analysis based feature extraction. In Section, Class and Subclass classification experiments, We improved the performance by 5.71%, 18.84% and 21.53%, respectively, compared with traditional classification methods.

본 연구의 목적은 특허 문헌 분류에 가장 적합한 방법론을 발견하기 위하여 다양한 자질 추출 방법과 기계학습 및 딥러닝 모델을 살펴보고 실험을 통해 최적의 성능을 제공하는 방법론을 분석하는데 있다. 자질 추출 방법으로는 전통적인 BoW 방법과 분산표현 방식인 워드 임베딩 벡터를 비교 실험하고, 문헌 집합 구축 방식으로는 형태소 분석과 멀티그램을 이용하는 방식을 비교 검토하였다. 또한 전통적인 기계학습 모델과 딥러닝 모델을 이용하여 분류 성능을 검증하였다. 실험 결과, 분산표현 방법과 형태소 분석을 이용한 자질추출 방법을 기반으로 딥러닝 모델을 적용하였을 경우에 분류 성능이 가장 우수한 것으로 판명되었으며 섹션, 클래스, 서브클래스 분류 실험에서 전통적인 기계학습 방법에 비해 각각 5.71%, 18.84%, 21.53% 우수한 분류 성능을 보여주었다.

Keywords

MHJBB6_2019_v53n2_179_f0001.png 이미지

<그림 1> 국제특허 분류(IPC) 분류 체계

MHJBB6_2019_v53n2_179_f0002.png 이미지

<그림 2> 기계학습 기반 특허 문헌 분류 실험 구성도

MHJBB6_2019_v53n2_179_f0003.png 이미지

<그림 3> 딥러닝 기반 특허문헌 분류 모델 구성도

MHJBB6_2019_v53n2_179_f0004.png 이미지

<그림 4> 워드 임베딩 벡터 종류에 따른 분포

MHJBB6_2019_v53n2_179_f0005.png 이미지

<그림 5> 임베딩 벡터 크기에 따른 성능 분포

MHJBB6_2019_v53n2_179_f0006.png 이미지

<그림 6> 딥러닝 모델의 성능 분포

<표 1> 특허문헌 분류에 대한 관련연구

MHJBB6_2019_v53n2_179_t0001.png 이미지

<표 2> 추출형식에 따른 어휘 통계 자료

MHJBB6_2019_v53n2_179_t0002.png 이미지

<표 3> 특허 문헌에 형태소 분석기 적용한 예

MHJBB6_2019_v53n2_179_t0003.png 이미지

<표 4> 특허 문헌 분류를 위한 학습집합

MHJBB6_2019_v53n2_179_t0004.png 이미지

<표 5> H02 클래스의 서브클래스들에서의 높은 TF-ICF값을 갖는 상위 10단어

MHJBB6_2019_v53n2_179_t0005.png 이미지

<표 6> “유전자”와 유사도가 높은 상위 20 단어 목록

MHJBB6_2019_v53n2_179_t0006.png 이미지

<표 7> 특허 문헌 분류를 위한 실험 종류

MHJBB6_2019_v53n2_179_t0007.png 이미지

<표 8> TF-ICF와 워드벡터를 이용한 자질추출에 대한 성능 비교

MHJBB6_2019_v53n2_179_t0008.png 이미지

<표 9> 딥러닝 모델 실험에 사용된 하이퍼 파라미터 종류와 범위

MHJBB6_2019_v53n2_179_t0009.png 이미지

<표 10> 기계학습과 딥러닝 모델의 분류 성능 비교표

MHJBB6_2019_v53n2_179_t0010.png 이미지

<표 11> 워드 임베딩 벡터 적용 방법 방법에 따른 분류 성능

MHJBB6_2019_v53n2_179_t0011.png 이미지

<표 12> 단어 추출 방법에 따른 분류 성능 비교

MHJBB6_2019_v53n2_179_t0012.png 이미지

<표 13> 제목 추가에 따른 분류 성능 비교

MHJBB6_2019_v53n2_179_t0013.png 이미지

References

  1. Kim, Jao-Ho and Choi, Key-Sun. 2005. "Patent Document Categorization based on Semantic Structural Information." Proc. of the 17th Annual Conference on Human and Cognitive Language Technology, 28-34.
  2. Park, Chanjeong, Kim, Kiyong and Seong, Dongsu. 2014. "Automatic IPC Classification for Patent Documents of Convergence Technology Using KNN." Journal of Korean Institute of Information Technology, 12(3): 175-185.
  3. Lim, Sora and Kwon, Yongjin. 2017. "IPC Multi-label Classification based on Functional Characteristics of Fields in Patent Documents." Review of Korean Society for Internet Information, 18(1): 77-88.
  4. Korean Intellectual Property Office. 2018. Intellectual Property Statistics for 2017. Daejeon: Korean Intellectual Property Office.
  5. KIST, Convergence Research Policy Center. 2018. Research and Analysis of National Convergence Technology R & D in 2017. Seoul: KIST, Convergence Research Policy Center.
  6. Bahdanau D., Cho, K. and Bengio, Y. 2015. "Neural Machine Translation by Jointly Learning to Align and Translate." In Proceeding of ICLR 2015. [arXiv:1409.0473]
  7. Bojanowski, P. et al. 2017. "Enriching word vectors with subword information." Transactions of the Association for Computational Linguistics, 5: 135-146. https://doi.org/10.1162/tacl_a_00051
  8. Chen, Y. and Chang, Y. 2012. "A three-phase method for patent classification." Information Processing & Management, 48(6): 1017-1030. https://doi.org/10.1016/j.ipm.2011.11.001
  9. Collobert, R. and Weston, J. 2008. "A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning." In Proceeding of the 25th International Conference on Maching Learning.
  10. Fall, C. et al. 2003. "Automated categorization in the international patent classification." In Acm Sigir Forum, 37(1): 10-25. https://doi.org/10.1145/945546.945547
  11. Koster, C. and Seutter, M. 2003. "Taming wild phrases." In Proceedings of the 25th European conference on IR research (ECIR'03), 161-176.
  12. Larkey, L. 1999. "A patent search and classification system." In Proceedings of the fourth ACM conference on Digital libraries, 179-187.
  13. Mikolov, T., Chen, K., Corrado, G. and Dean, J. 2013. "Efficient estimation of word representations in vector space." arXiv preprint arXiv:1301.3781.
  14. Pennington, J., Socher, R. and Manning, C. 2014. "Glove: Global vectors for word representation." In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP), 1532-1543.
  15. Tikk, D., Biro, G. and Torcsvari, A. 2008. "A hierarchical online classifier for patent categorization." Emerging technologies of text mining: Techniques and applications. IGI Global, 244-267.