DOI QR코드

DOI QR Code

Expansion of Topic Modeling with Word2Vec and Case Analysis

Word2Vec를 이용한 토픽모델링의 확장 및 분석사례

  • 윤상훈 (제주대학교 대학원 경영정보학과) ;
  • 김근형 (제주대학교 경영정보학과)
  • Received : 2020.02.24
  • Accepted : 2020.03.09
  • Published : 2021.03.31

Abstract

Purpose The traditional topic modeling technique makes it difficult to distinguish the semantic of topics because the key words assigned to each topic would be also assigned to other topics. This problem could become severe when the number of online reviews are small. In this paper, the extended model of topic modeling technique that can be used for analyzing a small amount of online reviews is proposed. Design/methodology/approach The extended model of being proposed in this paper is a form that combines the traditional topic modeling technique and the Word2Vec technique. The extended model only allocates main words to the extracted topics, but also generates discriminatory words between topics. In particular, Word2vec technique is applied in the process of extracting related words semantically for each discriminatory word. In the extended model, main words and discriminatory words with similar words semantically are used in the process of semantic classification and naming of extracted topics, so that the semantic classification and naming of topics can be more clearly performed. For case study, online reviews related with Udo in Tripadvisor web site were analyzed by applying the traditional topic modeling and the proposed extension model. In the process of semantic classification and naming of the extracted topics, the traditional topic modeling technique and the extended model were compared. Findings Since the extended model is a concept that utilizes additional information in the existing topic modeling information, it can be confirmed that it is more effective than the existing topic modeling in semantic division between topics and the process of assigning topic names.

Keywords

References

  1. 김정규, 정철, "특허 정보를 활용한 한국과 미국의 관광 관련 기술 동향 분석 : 토픽모델링을 중심으로", 관광학연구, 제43권, 제1호, 2019, pp.249-267.
  2. 남승주, 김준환, 유영준, "텍스트 분석 기반의 쇼핑 관광객 인식 분석", 신산업경영저널, 제38권, 제2호, 2020, pp.3-21. https://doi.org/10.30753/EMR.2020.38.2.001
  3. 심영석, 김홍봄, "온라인 리뷰 빅데이터 기반의 Word2Vec 기법을 활용한 관광지 개성과 여행객 평점 간 구조적 관계 분석", 관광학연구, 제8권, 제164호, 2018, pp.165-189.
  4. 이민철, 김혜진, "텍스트 마이닝 기법을 적용한 뉴스 데이터에서의 사건 네트워크 구축", 지능정보연구, 제24권, 제1호, 2018, pp.183-203. https://doi.org/10.13088/jiis.2018.24.1.183
  5. 이병철, 김두산, "OTA 리뷰를 사용하여 호텔 서비스 품질 결정 요인 도출-LDA 토픽 모델링-", 호텔리조트연구, 제19권, 제4호, 2020, pp.41-58.
  6. 이진욱, 유국현, 문병민, 배석주, "감성분석과 Word2vec을 이용한 비정형 품질 데이터 분석", 품질경영학회지, 제45권, 제1호, 2017, pp.117-127. https://doi.org/10.7469/JKSQM.2017.45.1.117
  7. 이창용, 김근형, "온라인리뷰의 랭킹모델링을 위한 양과 질의 인과모형 분석 ", 정보시스템연구, 제28권, 제1호, 2019, pp.1-116.
  8. 이혜진, 강영옥, "토픽모델링과 LSTM기반 텍스트 분석을 통한 부산방문 외국인 관광객의 선호관광지 및 관광매력요인 분석", 한국도시지리학회지, 제23권, 제3호, 2020, pp.61-70.
  9. 정영진, 조윤호,"온라인 구매 행동을 고려한 토픽모델링 기반 도서 추천", 지식경영연구, 제18권, 제4호, 2017, pp.97-118. https://doi.org/10.15813/kmr.2017.18.4.004
  10. 차윤정, 이지혜, 최지은, 김희웅, "소셜미디어 토픽모델링을 통한 스마트폰 마케팅 전략 수립 지원", 지식경영연구, 제16권, 제4호, 2015, pp.69-87. https://doi.org/10.15813/kmr.2015.16.4.005
  11. 야오즈옌. 김은미, 홍태호, "온라인리뷰의 텍스트마이닝에 기반한 한국방문 외국인 관광객의 문화적 특성 연구", 정보시스템 연구, 제29권, 제4호, 2020, pp.171-191.
  12. Blei, D., A. Ng.,and M. Jordan, "Latent Dirichlet Allocation", Journal of Machine Learning Research, Vol.3, 2003, pp.993-1022.
  13. Chang, J., Gerrish, S., Wang, C., Boyd-Graber, J. L., and Blei, D. M., " Reading Tea Leaves: How Humans Interpret Topic Models", In Advances in Neural Information Processing Systems, 2009, pp. 288-296.
  14. Hofmann T., "Probabilistic Latent Semantic Analysis", Proceedings of the Fifteenth Conference on Uncertainty in Artificial Intelligence, Morgan Kaufmann Publishers Inc., 1999, pp.289-296.
  15. Kyung Im Kim, Nguyen Cao Truong Hai, and Hyuk Ro Park, "SVD-LDA: A Combined Model for Text Classification", JIPS(Journal of Information Processing Systems), Vol.5, No.1, 2009, pp.5-10. https://doi.org/10.3745/JIPS.2009.5.1.005
  16. Mikolov, T., Chen, K., Corrado, G., and Dean, J., "Efficient Estimation of Word Representations in Vector Space", 2013, arXiv preprint arXiv:1301.3781.
  17. Moody, C. E., "Mixing Dirichlet Topic Models and Word Embeddings to Make Lda2vec", 2016, arXiv Preprint arXiv: 1605.02019.
  18. Newman, D., Lau, J. H., Grieser, K., & Baldwin, T., "Automatic evaluation of Topic Coherence", In Human Language Technologies : The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics, 2010, pp. 100-108.
  19. Qiang, J., Chen, P., Wang, T., and Wu, X.,"Topic Modeling Over Short Texts by Incorporating Word Embeddings", In Pacific-asia Conference on Knowledge Discovery and Data Mining, 2017, pp. 363-374.
  20. Won-joon Choi and Euhee Kim, "A Large-scale Text Analysis with Word Embeddings and Topic Modeling, Journal of Cognitive Science, Vol.20, No.1, 2019, pp.147-187. https://doi.org/10.17791/jcs.2019.20.1.147