DOI QR코드

DOI QR Code

Application of a Topic Model on the Korea Expressway Corporation's VOC Data

한국도로공사 VOC 데이터를 이용한 토픽 모형 적용 방안

  • 김지원 (도로교통공단 경기지부) ;
  • 박상민 (아주대학교 일반대학원 교통공학과) ;
  • 박성호 (아주대학교 일반대학원 교통공학과) ;
  • 정하림 (아주대학교 일반대학원 교통공학과) ;
  • 윤일수 (아주대학교 교통시스템공학과)
  • Received : 2020.08.11
  • Accepted : 2020.11.15
  • Published : 2020.12.31

Abstract

Recently, 80% of big data consists of unstructured text data. In particular, various types of documents are stored in the form of large-scale unstructured documents through social network services (SNS), blogs, news, etc., and the importance of unstructured data is highlighted. As the possibility of using unstructured data increases, various analysis techniques such as text mining have recently appeared. Therefore, in this study, topic modeling technique was applied to the Korea Highway Corporation's voice of customer (VOC) data that includes customer opinions and complaints. Currently, VOC data is divided into the business areas of Korea Expressway Corporation. However, the classified categories are often not accurate, and the ambiguous ones are classified as "other". Therefore, in order to use VOC data for efficient service improvement and the like, a more systematic and efficient classification method of VOC data is required. To this end, this study proposed two approaches, including method using only the latent dirichlet allocation (LDA), the most representative topic modeling technique, and a new method combining the LDA and the word embedding technique, Word2vec. As a result, it was confirmed that the categories of VOC data are relatively well classified when using the new method. Through these results, it is judged that it will be possible to derive the implications of the Korea Expressway Corporation and utilize it for service improvement.

Keywords

References

  1. 김동욱, 이수원, "단어 유사도를 이용한 뉴스 토픽 추출", 정보과학회논문지, 제44권, 제11호, 2017, 1138-1148
  2. 김동욱, 강주영, 임재익, "토픽 모델링 기법을 활용한 산업별 직무만족요인 비료 조사 : 잡플래닛 리뷰를 중심으로", 한국IT서비스학회지, 제15권, 제3호, 2016, 157-171 https://doi.org/10.9716/KITS.2016.15.3.157
  3. 박건철, 이치형, "토픽 모델링을 활용한 스마트시티 연구동향 분석", 인터넷정보학회논문지, 제20권, 제3호, 2019, 119-128. https://doi.org/10.7472/JKSII.2019.20.3.119
  4. 박상현, 문현실, 김재경, "토픽 모델링에 기반한 온라인 상품 평점 예측을 위한 온라인 사용 후기 분석", 한국IT서비스학회지, 제16권, 제3호, 2017, 113-125 https://doi.org/10.9716/KITS.2017.16.3.113
  5. 백시온, "한국어 토픽 모델링을 위한 단어 임베딩 활용 가능성 탐색", 서울대학교 대학원 석사학위 논문, 2018.
  6. 송춘자, "고객 피드백에 대응하기 위한 LDA 기반 토픽 분류 기법", 고려대학교 컴퓨터정보통신 대학원 석사학위 논문, 2016.
  7. 신동호, "Latent Semantic Analysis를 이용한 내용 기반 정보검색 시스템", 서울대학교 대학원 석사학위 논문, 1999.
  8. 심준식, 김형중, "LDA 토픽 모형을 활용한 판례 검색 및 분류 방법", 전자공학회논문지, 제54권, 제9호, 2017, 67-75. https://doi.org/10.5573/ieie.2017.54.9.67
  9. 안성주, 양정진, "LDA와 Word2Vec을 결합한 생물정보 토픽 모델 연구", 한국정보과학회 학술발표논문집, 2018, 2065-2067.
  10. 윤지은, 서창진, "텍스트 마이닝 기법을 활용한 인공지능과 헬스케어 융․복합 분야 연구동향 분석", 한국IT서비스학회지, 제18권, 제2호, 2019, 123-141. https://doi.org/10.9716/KITS.2019.18.2.123
  11. 원 준, "딥 러닝을 이용한 자연어 처리 입문", WikiDocs, 2020.
  12. 원중호, 이한별, 문혜정, 손 원, "텍스트 마이닝 기법을 이용한 경제심리 관련 문서 분류", 국민계정 리뷰, 2017.
  13. 이동준, 임유빈, 권태경, "형태소 기반 효율적인 한국어 단어 임베딩", 정보과학회논문지, 제45권, 제5호, 2018, 444-450.
  14. 이루다, 김진만, 임좌상, "LDA를 이용한 트위터의 토픽 분석", 한국통신학회 학술대회논문집, 2016, 1010-1011.
  15. 조성배, 신신애, 강동석, "토픽 모델링을 이용한 개방형 혁신 연구동향 분석 및 정책 방향 모색", 한국정보화정책, 제25권, 제3호, 2018, 82-74.
  16. Esposito, F., A. Corazza, and F. Cutugno, "Topic Modelling with Word Embeddings", Proceedings of the Third italian Conference on Computational Linguistics CLiC-it, 2016, 129-134.
  17. Hotho, A., A. Nurnberger, and G. Paab, "A Brief Survey of Text Mining", LDV-FORUM, 2005, 19-62.
  18. Nguyen, D.Q., R. Billingsley, L. Du, and M. Johnson, "Improving Topic Models with Latent Feature Word Representations", Transactions of the Association for Computational Linguistics, Vol. 3, 2015, 299-313. https://doi.org/10.1162/tacl_a_00140
  19. Jarman, J., "Combining Natural Language Processing and Statistical Text Mining : A Study of Specialized Versus Common Languages", University of South Florida, Dissertation, 2011.