소셜 데이터에서 재난 사건 추출을 위한 사용자 행동 및 시간 분석을 반영한 토픽 모델

  • Published : 2017.05.31

Abstract

본고에서는 소셜 빅데이터에서 공공안전에 위협되고 사회적으로 이슈가 되는 재난사건을 추출하기 위한 방법으로 소셜 네트워크상에서 사용자 행동 분석과 시간분석을 반영한 토픽 모델링 기법을 알아본다. 소셜 사용자의 글 수, 리트윗 반응, 활동주기, 팔로워 수, 팔로잉 수 등 사용자의 행동 분석을 통하여 활동적이고 신뢰성 있는 사용자를 분류함으로써 트윗에서 스팸성과 광고성을 제외하고 이슈에 대해 신뢰성 높은 사용자가 쓴 트윗을 중요하게 반영한다. 또한, 트위터 데이터에서 새로운 이슈가 발생한 것을 탐지하기 위해 시간별 핵심어휘 빈도의 분포 변화를 측정하고, 이슈 트윗에 대해 감성 표현 분석을 통해 핵심이슈에 대해 사건 어휘를 추출한다. 소셜 빅데이터의 특성상 같은 날짜에 여러 이슈에 대한 트윗이 많이 생성될 수 있기 때문에, 트윗들을 토픽별로 그룹핑하는 것이 필요하므로, 최근 많이 사용되고 있는 LDA 토픽모델링 기법에 시간 특성과 사용자 특성을 분석한 시간상에서의 중요한 사건 어휘를 반영하고, 해당이슈에 대한 신뢰성 있는 사용자가 쓴 트윗을 중요시 반영하도록 토픽모델링 기법을 개선한 소셜 사건 탐지 방법에 대해 알아본다.

Keywords

References

  1. Mendoza, M., Poblete, B. & Castillo, C. Twitter under crisis: Can we trust what we rt? In 1st Workshop on Social Media Analytics (SOMA '10). ACM Press, July 2010.
  2. Kanhabua, N. & Nejdl, W. Understanding the diversity of tweets in the time of outbreaks. In Proceedings of the 22nd international conference companion on World Wide Web, pp. 1335-1342. 2013.
  3. Benson, E., Haghighi, A., & Barzilay, R. Event discovery in social media feeds. In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1 (pp. 389-398). Association for Computational Linguistics, 2011.
  4. Wikipedia, "Twitter", http://en.wikipedia.org/wiki/Twitter, 2017
  5. Blei, D. M., Ng, A. Y. & Jordan, M. I. 2003. Latent Dirichlet Allocation. The Journal of Machine Learning research 3, pp. 993-1022
  6. Tsolmon, B. & Lee, K.-S. " A Graph-based Reliable User Classification ", Lecture Notes in Electrical Engineering 285, pp. 61-68, Springer Verlag. 2013.
  7. Kleinberg J. M. "Authoritative Sources in a Hyperlinked Environment", Journal of the ACM, 46(5), pp. 604-632, 1999 https://doi.org/10.1145/324133.324140
  8. Tsolmon, B. & Lee, K.-S. " Extracting Social Events based on Latent Dirichlet Allocation with Time and User Analysis ", Proceeding of the 37th Annual International ACM SIGIR Conference(SIGIR2014), pp. 1187-1190, 2014.
  9. Rosen-Zvi, M., Griffiths, T., Steyvers, M., & Smyth, P. The author-topic model for authors and documents. In Proceedings of the 20th conference on Uncertainty in artificial intelligence (pp. 487-494). AUAI Press, 2004
  10. Griffiths, T. L., & Steyvers, M. Finding scientific topics. Proceedings of the National academy of Sciences, 101(suppl 1), 5228-5235, 2004.
  11. Diao, Q., Jiang, J., Zhu, F. & Lim, E.P. Finding bursty topics from microblogs. In Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, pp. 536-544. 2012.
  12. GibbsLDA++: A C/C++ Implementation of Latent Dirichlet Allocation, http://gibbslda.sourceforge.net/