DOI QR코드

DOI QR Code

Automatic Keyword Extraction using Hierarchical Graph Model Based on Word Co-occurrences

단어 동시출현관계로 구축한 계층적 그래프 모델을 활용한 자동 키워드 추출 방법

  • 송광호 (인하대학교 정보통신공학과) ;
  • 김유성 (인하대학교 정보통신공학과)
  • Received : 2017.01.26
  • Accepted : 2017.02.12
  • Published : 2017.05.15

Abstract

Keyword extraction can be utilized in text mining of massive documents for efficient extraction of subject or related words from the document. In this study, we proposed a hierarchical graph model based on the co-occurrence relationship, the intrinsic dependency relationship between words, and common sub-word in a single document. In addition, the enhanced TextRank algorithm that can reflect the influences of outgoing edges as well as those of incoming edges is proposed. Subsequently a novel keyword extraction scheme using the proposed hierarchical graph model and the enhanced TextRank algorithm is proposed to extract representative keywords from a single document. In the experiments, various evaluation methods were applied to the various subject documents in order to verify the accuracy and adaptability of the proposed scheme. As the results, the proposed scheme showed better performance than the previous schemes.

키워드 추출은 주어진 문서로부터 문서의 주제나 내용에 관련된 단어들을 추출해내는 방법으로 대량의 문서를 다루는 텍스트마이닝 연구들이 전처리에서 공통적으로 거치는 대표 자질 추출에서 중요하게 활용될 수 있다. 본 논문에서는 하나의 문서의 주제에 적합한 키워드를 추출하기 위해 문서에 출현한 단어들 사이의 동시출현관계, 동시출현 단어 쌍 사이의 출현 종속 관계, 단어들 사이의 공통 부분단어 관계 등의 다양한 관계들을 특징으로 활용하여 구축한 계층적 그래프 모델을 제안하고, 그래프를 구성하는 정점(Vertex)들의 중요도를 평가할 때 입력 간선(Edge)에 의한 영향뿐만 아니라 출력 간선에 의한 영향도 고려한 새로운 중요도 산출 방법을 제안하며, 이를 토대로 점진적으로 키워드를 추출해내는 방안을 제안한다. 그리고 제안한 방법의 정확성과 주제적 포괄성 검증을 위해 다양한 분야의 주제를 가진 문서 데이터에 다양한 평가방법을 적용해 기존의 방법보다 전체적으로 더 나은 성능을 보임을 확인하였다.

Keywords

References

  1. Sifatullah Siddiqi and Aditi Sharan, "Keyword and Keyphrase Extraction Techniques: A Literature Review," International Journal of Computer Applications, Vol. 109, No. 2, pp. 18-22, 2015. https://doi.org/10.5120/19161-0607
  2. B. Lott, "Survey of Keyword Extraction Techniques," UNM Education, 2012.
  3. Y. J. Kumar et al., "A Review on Automatic Text Summarization Approaches," Journal of Computer Science, Vol. 12, No. 4, pp. 178-190, 2016. https://doi.org/10.3844/jcssp.2016.178.190
  4. G. K. Palshikar, "Keyword Extraction from a Single Document Using Centrality Measures," Proc. of 2nd international conference on pattern recognition and machine intelligence, Vol. 4815, pp. 503-510, 2007.
  5. H. P. Luhn, "The automatic creation of literature abstracts," IBM J. Res. Dev., 2, pp. 159-165, 1958. https://doi.org/10.1147/rd.22.0159
  6. S.H. Han, "A Study on Keyword Extraction From a Single Document Using Term Clustering," Journal of the Korean Society for Library and Information Science, Vol. 44, No. 3, pp. 155-173, 2010. (in korean) https://doi.org/10.4275/KSLIS.2010.44.3.155
  7. Yutaka Matsuo and Mitsuru Ishizuka, "Keyword Extraction from a Single Document using Word Co-occurrence Statistical Information," International Journal on Artificial Intelligence Tools, Vol. 13, No. 1, pp. 157-169, 2004 https://doi.org/10.1142/S0218213004001466
  8. R. Mihalcea and P. Tarau, "TextRank: Bringing order into texts," Proc. of EMNLP04, pp. 404-411, 2004.
  9. S. Brin and L. Page, "The anatomy of a large-scale hyper-textual Web search engine," Computer Networks and ISDN Systems, Vol. 30, No. 1-7, 1998. https://doi.org/10.1016/S0169-7552(98)00085-3
  10. Marina Litvak and Mark Last, "Graph-Based Keyword Extraction for Single Document Summarization," Proc. of the workshop on Multi-source Multilingual Information Extraction and Summarization, Association for Computational Linguistics, pp. 17-24, 2008.
  11. K.S. Bok, M.S. Yook, Y.W. Noh, J.E. Han, Y.W. Kim, J.T. Lim, J.S. Yoo, "In-Memory Based Incremental Processing Method for Stream Query Processing in Big Data Environments," The Journal of The Korea Contents Society, Vol. 16, No. 2, pp. 163-173, 2016. (in korean)