DOI QR코드

DOI QR Code

TK-Indexing : An Indexing Method for SNS Data Based on NoSQL

TK-Indexing : NoSQL 기반 SNS 데이터 색인 기법

  • 심형남 (고려대학교 컴퓨터.전파통신공학과) ;
  • 김정동 (고려대학교 컴퓨터.전파통신공학과) ;
  • 설광수 (고려대학교 컴퓨터.전파통신공학과) ;
  • 백두권 (고려대학교 컴퓨터.전파통신공학과)
  • Received : 2012.05.03
  • Accepted : 2012.07.09
  • Published : 2012.08.31

Abstract

Currently, contents generated by SNS services are increasing exponentially, as the number of SNS users increase. The SNS is commonly used to post personal status and individual interests. Also, the SNS is applied in socialization, entertainment, product marketing, news sharing, and single person journalism. As SNS services became available on smart phones, the users of SNS services can generate and spread the social issues and controversies faster than the traditional media. The existing indexing methods for web contents have limitation in terms of real-time indexing for SNS contents, as they usually focus on diversity and accuracy of indexing. To overcome this problem, there are real-time indexing techniques based on RDBMSs. However, these techniques suffer from complex indexing procedures and reduced indexing targets. In this regard, we introduce the TK-Indexing method to improve the previous indexing techniques. Our method indexes the generation time of SNS contents and keywords by way of NoSQL to indexing SNS contents in real-time.

현재 소셜 네트워크 서비스(Social Network Service: SNS)의 이용자 수가 늘어나면서 SNS에서 생성되는 콘텐츠 데이터의 양도 기하급수적으로 늘어나고 있다. 이러한 SNS는 개인의 근황, 관심사를 전달하기 위해 사용하고, 친목도모, 엔터테인먼트, 제품 마케팅, 최신 뉴스 공유, 1인 미디어 등 다양한 목적으로 활용하고 있다. SNS가 스마트폰에서 사용 가능해지면서 사용자들은 언제, 어디서나 실시간으로 사회의 주요쟁점이나 사회구성원들의 주 관심사와 같은 콘텐츠를 기존 미디어 매체보다 빠르게 생성하고 확산시킨다. 기존 웹 콘텐츠 색인 기법은 색인대상이 다양하고 정확성에 중점을 두어 색인하므로 실시간으로 대량 생성되는 SNS 콘텐츠를 색인하는 기법으로 한계가 있다. 이러한 문제를 해결하기 위하여 관계형 DBMS기반 실시간 색인 기법이 있으나 색인대상의 축소와 색인 절차의 복잡성이 높다는 단점이 있다. 따라서 본 논문에서는 실시간으로 생성된 SNS콘텐츠를 색인하기 위하여 NoSQL기반 SNS 콘텐츠 생성시간과 키워드를 각각 색인하는 TK-Indexing 기법을 제안하여 기존 색인 기법의 복잡성을 개선한다.

Keywords

References

  1. Jansen, B.j., et al, "Real Time search on the web: Queries, topics, and economic value", Information Processing and Management, Vol.47, Issue.4, pp.491-506, 2011. https://doi.org/10.1016/j.ipm.2011.01.007
  2. Facebook, http://www.facebook.com, 2012.
  3. Twitter, http://www.twitter.com, 2012.
  4. David Geer, "Is It Really Time for Real-Time Search", IEEE Computer Society, Vol.43, Issue.3, pp.16-19, 2010. https://doi.org/10.1109/MC.2010.204
  5. Shim H, Kim J, Baik D, "TK-Indexing method based on NoSQL for real-time search", KIISE 2011 Fall Conference, Vol.28, Issue2, Seoul National Univ., 2011.
  6. Bernard J.jansen, "Real time search user behavior", In: CHI Extended Abstracts, pp.3961-3966, 2010.
  7. Das, G., Gunopulos, D., Koudas, N., and Tsirogiannis, D, "Answering top-k queries using Views", International Conference on Very Large Data Bases, pp.451-462, 2006.
  8. Chun chen, Feng Li, Beng chin Ooi, Sai Wu, "TI: An Efficient Indexing Mechanism for Real-Time Search on Tweets", SIGMOD/PODS 2011, ACM Press(2011), pp.649-660, 2011.
  9. Fay Chang, Jeffrey Dean, Sanjay Ghemawat, et al., "Bigtable: A distributed storage system for structured data", OSDI'06 Proceedings of the 7th conference on Symposium on Operating Systems Design and Implementation, 2006.
  10. G. DeCandia, D.Hastorun, M. Jampani, G. Kakulapati, A.Lakshman, A. Pilchin, S. Sivasubramanian, P. Vosshall, and W. Vogels, "Dynamo: Amazon's Highly Available Key-Value Store", ACM Symposium on Operating Systems Principles, 2007.
  11. Jeffrey Dean, Sanjay Ghemawat, "MapReduce: simplified data processing on large clusters" the 6th conference on Symposium on Operating Systems Design & Implementation, 2004.
  12. R. Chirkova, C. Li, and J. Li. "Answering queries using materialized views with minimum size", The VLDB Journal, 15(3):191-210, 2006. https://doi.org/10.1007/s00778-005-0162-8
  13. me2day, http://www.me2day.net, 2012.
  14. V. Hristidis and Y. Papakonstantinou, "Algorithms and applications for answering ranked queries using ranked views," The VLDB Journal, Vol.13, No.1, 2004.
  15. C. Li, K. C.-C. chang, I. F. Ilyas, and S. Song, "RankSQL; Query Algebra and Opimization for Realational Top-k Queries", In Proc. Int'l Conf. on Management of Data, ACM SIGMOD, Baltimore, Maryland, June, 2005.
  16. B. F. Cooper, A. Silberstein, E. Tam, R. Ramakrishnan, and R. Sears, "Benchmarking cloud serving systems with YCSB", In SoCC '10: Proceedings of the 1st ACM symposium on Cloud computing, pp.143-154, 2010.