DOI QR코드

DOI QR Code

A Proposal of a Keyword Extraction System for Detecting Social Issues

사회문제 해결형 기술수요 발굴을 위한 키워드 추출 시스템 제안

  • Jeong, Dami (Graduate School of Convergence Science and Technology, Seoul National University) ;
  • Kim, Jaeseok (Graduate School of Convergence Science and Technology, Seoul National University) ;
  • Kim, Gi-Nam (Department of Digital Media, Ajou University) ;
  • Heo, Jong-Uk (Department of Web Science, Korea Advanced Institute of Science and Technology) ;
  • On, Byung-Won (Advanced Institutes of Convergence Technology, Seoul National University) ;
  • Kang, Mijung (Advanced Institutes of Convergence Technology, Seoul National University)
  • 정다미 (서울대학교 융합과학기술대학원 디지털정보융합전공) ;
  • 김재석 (서울대학교 융합과학기술대학원 디지털정보융합전공) ;
  • 김기남 (아주대학교 일반대학원 미디어학과) ;
  • 허종욱 (한국과학기술원 일반대학원 웹사이언스학과) ;
  • 온병원 (서울대학교 차세대융합기술연구원) ;
  • 강미정 (서울대학교 차세대융합기술연구원)
  • Received : 2013.05.10
  • Accepted : 2013.08.06
  • Published : 2013.09.30

Abstract

To discover significant social issues such as unemployment, economy crisis, social welfare etc. that are urgent issues to be solved in a modern society, in the existing approach, researchers usually collect opinions from professional experts and scholars through either online or offline surveys. However, such a method does not seem to be effective from time to time. As usual, due to the problem of expense, a large number of survey replies are seldom gathered. In some cases, it is also hard to find out professional persons dealing with specific social issues. Thus, the sample set is often small and may have some bias. Furthermore, regarding a social issue, several experts may make totally different conclusions because each expert has his subjective point of view and different background. In this case, it is considerably hard to figure out what current social issues are and which social issues are really important. To surmount the shortcomings of the current approach, in this paper, we develop a prototype system that semi-automatically detects social issue keywords representing social issues and problems from about 1.3 million news articles issued by about 10 major domestic presses in Korea from June 2009 until July 2012. Our proposed system consists of (1) collecting and extracting texts from the collected news articles, (2) identifying only news articles related to social issues, (3) analyzing the lexical items of Korean sentences, (4) finding a set of topics regarding social keywords over time based on probabilistic topic modeling, (5) matching relevant paragraphs to a given topic, and (6) visualizing social keywords for easy understanding. In particular, we propose a novel matching algorithm relying on generative models. The goal of our proposed matching algorithm is to best match paragraphs to each topic. Technically, using a topic model such as Latent Dirichlet Allocation (LDA), we can obtain a set of topics, each of which has relevant terms and their probability values. In our problem, given a set of text documents (e.g., news articles), LDA shows a set of topic clusters, and then each topic cluster is labeled by human annotators, where each topic label stands for a social keyword. For example, suppose there is a topic (e.g., Topic1 = {(unemployment, 0.4), (layoff, 0.3), (business, 0.3)}) and then a human annotator labels "Unemployment Problem" on Topic1. In this example, it is non-trivial to understand what happened to the unemployment problem in our society. In other words, taking a look at only social keywords, we have no idea of the detailed events occurring in our society. To tackle this matter, we develop the matching algorithm that computes the probability value of a paragraph given a topic, relying on (i) topic terms and (ii) their probability values. For instance, given a set of text documents, we segment each text document to paragraphs. In the meantime, using LDA, we can extract a set of topics from the text documents. Based on our matching process, each paragraph is assigned to a topic, indicating that the paragraph best matches the topic. Finally, each topic has several best matched paragraphs. Furthermore, assuming there are a topic (e.g., Unemployment Problem) and the best matched paragraph (e.g., Up to 300 workers lost their jobs in XXX company at Seoul). In this case, we can grasp the detailed information of the social keyword such as "300 workers", "unemployment", "XXX company", and "Seoul". In addition, our system visualizes social keywords over time. Therefore, through our matching process and keyword visualization, most researchers will be able to detect social issues easily and quickly. Through this prototype system, we have detected various social issues appearing in our society and also showed effectiveness of our proposed methods according to our experimental results. Note that you can also use our proof-of-concept system in http://dslab.snu.ac.kr/demo.html.

융합 R&D가 추구해야 할 바람직한 방향은 이종 기술 간의 결합에 의한 맹목적인 신기술 창출이 아니라, 당면한 주요 문제를 해결함으로써 사회적 니즈를 충족시킬 수 있는 기술을 개발하는 것이다. 이와 같은 사회문제 해결형 기술 R&D를 촉진하기 위해서는 우선 우리 사회에서 주요 쟁점이 되고 있는 문제들을 선별해야 한다. 그런데 우선적이고 중요한 사회문제를 분별하기 위해 전문가 설문조사나 여론조사 등 기존의 사회과학 방법론을 사용하는 것은 참여자의 선입견이 개입될 수 있고 비용이 많이 소요된다는 한계를 지닌다. 기존의 사회과학 방법론이 지닌 문제점을 보완하기 위하여 본 논문에서는 사회적 이슈를 다루고 있는 대용량의 뉴스기사를 수집하고 통계적인 기법을 통하여 사회문제를 나타내는 키워드를 추출하는 시스템의 개발을 제안한다. 2009년부터 최근까지 3년 동안 10개 주요 언론사에서 생산한 약 백 30만 건의 뉴스기사에서 사회문제를 다루는 기사를 식별하고, 한글 형태소 분석, 확률기반의 토픽 모델링을 통해 사회문제 키워드를 추출한다. 또한 키워드만으로는 정확한 사회문제를 파악하기 쉽지 않기 때문에 사회문제와 연관된 키워드와 문장을 찾아서 연결하는 매칭 알고리즘을 제안하다. 마지막으로 사회문제 키워드 비주얼라이제이션 시스템을 통해 시계열에 따른 사회문제 키워드를 일목요연하게 보여줌으로써 사회문제를 쉽게 파악할 수 있도록 하였다. 특히 본 논문에서는 생성확률모델 기반의 새로운 매칭 알고리즘을 제안한다. 대용량 뉴스기사로부터 Latent Dirichlet Allocation(LDA)와 같은 토픽 모델 방법론을 사용하여 자동으로 토픽 클러스터 세트를 추출할 수 있다. 각 토픽 클러스터는 연관성 있는 단어들과 확률값으로 구성된다. 그리고 도메인 전문가는 토픽 클러스터를 분석하여, 각 토픽 클러스터의 레이블을 결정하게 된다. 이를 테면, 토픽 1 = {(실업, 0.4), (해고, 0.3), (회사, 0.3)}에서 토픽 단어들은 실업문제와 관련있으며, 도메인 전문가는 토픽 1을 실업문제로 레이블링 하게 되고, 이러한 토픽 레이블은 사회문제 키워드로 정의한다. 그러나 이와 같이 자동으로 생성된 사회문제 키워드를 분석하여 현재 우리 사회에서 어떤 문제가 발생하고 있고, 시급히 해결해야 될 문제가 무엇인지를 파악하기란 쉽지 않다. 따라서 제안된 매칭 알고리즘을 사용하여 사회문제 키워드를 요약(summarization)하는 방법론을 제시한다. 우선, 각 뉴스기사를 문단(paragraph) 단위로 세그먼트 하여 뉴스기사 대신에 문단 세트(A set of paragraphs)를 가지게 된다. 매칭 알고리즘은 각 토픽 클러스터에 대한 각 문단의 확률값을 측정하게된다. 이때 토픽 클러스터의 단어들과 확률값을 이용하여 토픽과 문단이 얼마나 연관성이 있는지를 계산하게 된다. 이러한 과정을 통해 각 토픽은 가장 연관성이 있는 문단들을 매칭할 수 있게 된다. 이러한 매칭 프로세스를 통해 사회문제 키워드와 연관된 문단들을 검토함으로써 실제 우리 사회에서 해당 사회문제 키워드와 관련해서 구체적으로 어떤 사건과 이슈가 발생하는 지를 쉽게 파악할 수 있게 된다. 또한 매칭 프로세스와 더불어 사회문제 키워드 가시화를 통해 사회문제 수요를 파악하려는 전문가들은 웹 브라우저를 통해 편리하게 특정 시간에 발생한 사회문제가 무엇이며, 구체적인 내용은 무엇인지를 파악할 수 있으며, 시간 순서에 따른 사회이슈의 변동 추이와 그 원인을 알 수 있게 된다. 개발된 시스템을 통해 최근 3년 동안 국내에서 발생했던 다양한 사회문제들을 파악하였고 개발된 알고리즘에 대한 평가를 수행하였다(본 논문에서 제안한 프로토타입 시스템은 http://dslab.snu.ac.kr/demo.html에서 이용 가능함. 단, 구글크롬, IE8.0 이상 웹 브라우저 사용 권장).

Keywords

References

  1. Aggarwal, C. and C. Zhai, Mining Text Data, Springer, 2012.
  2. Blei, D., A. Ng, M. Jordan, and J. Lafferty, "Latent Dirichlet Allocations," Journal of Machine Learning Research, Vol.3, No.4-5(2003), 993-1022.
  3. Blei, D. and J. Lafferty, "Dynamic topic models," International Conference on Machine Learning, (2006), 113-120.
  4. Blei, D., "Probabilistic Topic Models," Communications of the ACM, Vol.55, No.4(2012), 77-84. https://doi.org/10.1145/2133806.2133826
  5. Dalvi, N., R. Kumar, B. Pang, and A. Tomkins, "Matching Reviews to Objects using a Language Model," Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing (EMNLP), (2009), 609- 618.
  6. Fei-Fie, L. and P. Perona, "A Bayesian hierarchical model for learning natural scene categories," IEEE Computer Vision and Pattern Recognition, Vol.2(2005), 524-531.
  7. Fulton, S. and J. Fulton, HTML5 Canvas, O'Reilly Media, Inc., The first edition, 2012.
  8. JGibbLDA-A Java Implementation of Latent Dirichlet Allocation (LDA) using Gibbs Sampling for Parameter Estimation and Inference. Available at http://jgibblda.sourceforge.net (Accessed 13 September, 2013).
  9. Kang, S., Korean Lexical Analysis. Available at http://nlp.kookmin.ac.kr/HAM/kor/ham-intr.html(Accessed 13 September, 2013).
  10. Kam, M. and M. Song, "A Study on Differences of Contents and Tones of Arguments among Newspapers using Text Mining Analysis," Journal of Intelligence and Information Systems, Vol.18, No.3(2012), 53-77.
  11. Korean Integrated News Database Systems(KINDS). Available at http://www.kinds.or.kr(Accessed 13 September, 2013).
  12. Lee, C., J. Hur, H. Oh, H. J Kim, P. Ryu, and H. K. Kim, "Technology Trends of Issue Detection and Predictive Analysis on Social Big Data," Electronics and Telecommunications Research Institute, Vol.28, No.1(2013), 62-71.
  13. Liu, B., Sentiment Analysis and Opinion Mining (Synthesis Lectures on Human Language Technologies), Morgan and Claypool Publishers, 2012.
  14. Misra, H., F. Yvon, J. Jose, and O. Cappe, "Text Segmentation via Topic Modeling : An Analytical Study," Proceedings of International Conference on Information and Knowledge Management(CIKM), (2009), 1553-1556.
  15. Recorded Future, Web Intelligence for Business Decisions. Available at https://www.recordedfuture.com (Accessed 13 September, 2013).
  16. Rosen-Zvi, M., T. Griffiths, M. Steyvers, and P. Smith., "The author-topic model for authors and documents," Proceedings of the 20th Conference on Uncertainty in Artificial Intelligence, (2004), 487-494.
  17. Sun, B., P. Mitra, H. Zha, C. Giles, and J. Yen, "Topic Segmentation with Shared Topic Detection and Alignment of Multiple Documents," Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval, (2007), 199-206.
  18. Wagner, C., Topic Models, DIGITAL-Institute of Information and Communication Technologies. Available at http://www.slideshare.net/clauwa/topic-models-5274169(Accessed 13 September, 2013).

Cited by

  1. Text Mining for Korean: Characteristics and Application to 2011 Korean Economic Census Data vol.27, pp.7, 2014, https://doi.org/10.5351/KJAS.2014.27.7.1207
  2. Development and Issues of Research and Solution Development(R&SD) Policy: Focused on Interaction among Policy Targets, Policy Actors and Institutions vol.31, pp.3, 2013, https://doi.org/10.17327/ippa.2017.31.3.002
  3. 단어 임베딩(Word Embedding) 기법을 적용한 키워드 중심의 사회적 이슈 도출 연구: 장애인 관련 뉴스 기사를 중심으로 vol.35, pp.1, 2013, https://doi.org/10.3743/kosim.2018.35.1.231
  4. 인과관계문형 기반 사회이슈 발생원인 도출 방법 연구 vol.19, pp.3, 2013, https://doi.org/10.14400/jdc.2021.19.3.167
  5. A Semantic Network Analysis of News Comments on Child Abuse: Focusing on the Major Changes of Child Abuse Policies vol.42, pp.4, 2021, https://doi.org/10.5723/kjcs.2021.42.4.457