DOI QR코드

DOI QR Code

Analysis of Massive Scholarly Keywords using Inverted-Index based Bottom-up Clustering

역인덱스 기반 상향식 군집화 기법을 이용한 대규모 학술 핵심어 분석

  • Oh, Heung-Seon (School of Computer Science and Engineering, KOREATECH) ;
  • Jung, Yuchul (Computer Engineering, Kumoh National Institute of Technology)
  • 오흥선 (한국기술교육대학교 컴퓨터공학부) ;
  • 정유철 (금오공과대학교 컴퓨터공학과)
  • Received : 2018.08.16
  • Accepted : 2018.11.12
  • Published : 2018.11.30

Abstract

Digital documents such as patents, scholarly papers and research reports have author keywords which summarize the topics of documents. Different documents are likely to describe the same topic if they share the same keywords. Document clustering aims at clustering documents to similar topics with an unsupervised learning method. However, it is difficult to apply to a large amount of documents event though the document clustering is utilized to in various data analysis due to computational complexity. In this case, we can cluster and connect massive documents using keywords efficiently. Existing bottom-up hierarchical clustering requires huge computation and time complexity for clustering a large number of keywords. This paper proposes an inverted index based bottom-up clustering for keywords and analyzes the results of clustering with massive keywords extracted from scholarly papers and research reports.

특허(patent), 학술 논문(scholarly paper)과 연구 보고서(research report)와 같은 디지털 문서(digital document)에는 주제(topic)를 요약하는 저자 키워드(author keyword)가 있다. 서로 다른 문서가 동일한 키워드를 공유하고 있다면 두 문서가 동일한 주제의 내용을 기술하고 있을 가능성이 매우 높다. 문서 군집화(document clustering)는 비슷한 주제를 가지는 문서들을 비지도 학습 방법(unsupervised learning)을 이용하여 같은 군집으로 그룹(group)화 하는 것이다. 문서 군집화는 다양한 분석에 이용되지만 대용량의 문서 데이터에 적용하기 위해서는 많은 계산량이 필요함으로 쉽지 않다. 이러한 경우, 문서의 내용을 이용하는 것보다 문서의 키워드를 이용하여 군집화하면 더욱 효율적으로 대용량의 데이터를 연결할 수 있다. 기존의 상향식 군집화 방법(bottom-up hierarchical clustering)은 대용량의 키워드 군집화(keyword clustering)를 수행하는데 있어서 많은 시간이 필요하다는 문제점이 있다. 본 논문에서는 정보검색(information retrieval)에서 널리 사용되는 역인덱스(inverted-index) 구조를 상향식 군집화에 적용한 효율적인 군집화 방법을 제안하고, 제안 방법을 대용량의 키워드 데이터에 적용하였으며, 그 결과를 분석하였다.

Keywords

SHGSCZ_2018_v19n11_758_f0001.png 이미지

Fig. 1. Associations of digital documents keywords

SHGSCZ_2018_v19n11_758_f0002.png 이미지

Fig. 2. Matrix representations for keyword data

SHGSCZ_2018_v19n11_758_f0003.png 이미지

Fig. 3. Overview of constructing an inverted index using q-grams

SHGSCZ_2018_v19n11_758_f0004.png 이미지

Fig. 4. Keyword samples

SHGSCZ_2018_v19n11_758_f0005.png 이미지

Fig. 4. Number of clusters with member counts

SHGSCZ_2018_v19n11_758_f0006.png 이미지

Fig. 5. Samples of top-20 cluster labels

SHGSCZ_2018_v19n11_758_f0007.png 이미지

Fig. 6. Sample cluster detail for “Finite Element Method”

Table 1. Data statistics

SHGSCZ_2018_v19n11_758_t0001.png 이미지

References

  1. O. Egozi, S. Markovitch, E. Gabrilovich, "Concept-Based Information Retrieval Using Explicit Semantic Analysis", ACM Transactions on Information Systems, Vol.29, No.2, pp.1-34, 2011. DOI: https://dx.doi.org/10.1145/1961209.1961211
  2. L. Li, R. Zhou, D. Huang, "Two-phase biomedical named entity recognition using CRFs", Computational Biology and Chemistry, Vol.33, No.4, pp.334-338, 2009. DOI: https://dx.doi.org/10.1016/j.compbiolchem.2009.07.004
  3. R. Meng, S. Zhao, S. Han, D. He, P. Brusilovsky, Y. Chi, "Deep Keyphrase Generation", Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp.582-592, 2017. DOI: https://dx.doi.org/10.18653/v1/P17-1054
  4. Y. G. Kim, J. H. Suh, S. C. Park, "Visualization of patent analysis for emerging technology", Expert Systems with Applications, Vol.34, No.3, pp.1804-1812, 2008. DOI: https://dx.doi.org/10.1016/j.eswa.2007.01.033
  5. R. Meng, S. Zhao, S. Han, D. He, P. Brusilovsky, Y. Chi, "Deep Keyphrase Generation", Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp.582-592, 2017. DOI: https://dx.doi.org/10.18653/v1/P17-1054
  6. J. Liu, J. Shang, C. Wang, X. Ren, J. Han, "Mining Quality Phrases from Massive Text Corpora", Proceedings of the 2015 ACM SIGMOD International Conference on Management of Data - SIGMOD '15, pp.1729-1744, 2015. DOI: https://dx.doi.org/10.1145/2723372.2751523
  7. C. C. Aggarwal, C. A. Zhai, Survey of Text Clustering Algorithms. In Mining Text Data, pp.77-128, Springer US, 2012.
  8. C. D. Manning, P. Raghavan, H. Schutze, Introduction to Information Retrieval. Cambridge University Press, 2008.
  9. P. Willett, "The Porter stemming algorithm: then and now", Program, Vol.40, No.3, pp.219-223, 2006. DOI: https://dx.doi.org/10.1108/00330330610681295
  10. M. Sahami, T. D. Heilman, "A web-based kernel function for measuring the similarity of short text snippets", Proceedings of the 15th international conference on World Wide Web - WWW '06, pp.377-386, 2006. DOI: https://dx.doi.org/10.1145/1135777.1135834
  11. S. Tan, Y. Wang, G. Wu, "Adapting centroid classifier for document categorization", Expert Systems with Applications, Vol.38, No.8, pp.10264-10273, 2011. DOI: https://dx.doi.org/10.1016/j.eswa.2011.02.114
  12. T. Hasegawa, S. Sekine, R. Grishman, "Discovering relations among named entities from large corpora", Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics - ACL '04, pp.415-422, 2004. DOI: https://dx.doi.org/10.3115/1218955.1219008