DOI QR코드

DOI QR Code

On Regularity of Daily Distribution of Queries in Search Engine

검색엔진에서 일간질의 어분포의 정상성에 관한 연구

  • Published : 2007.12.31

Abstract

In this paper we analyzed regularity of daily patterns of distribution of Queries coming from internet search engine. And then, we proposed a Pareto distribution and Zipf law for identifying the query distribution and applied them to daily queries on the search engine during 2 week. We found that there is some evidence that Pareto and Zipf laws can be applied to evaluate the regularity of daily patterns of distribution of queries in search engine. Those results can be used to provide a better understanding of the social interests and trends using the query distribution patterns.

하루에도 수백만 건 이상의 방대한 질의어가 입력되는 검색엔진을 통해 인터넷 검색 패턴을 분석하는데 활용될 수 있는 질의어 분포의 정상성을, Pareto 분포와 Zipf 모형을 이용해 검토하였다. 실제2주일간의 일간 검색어 분포를 Pareto 모형으로 적합 시킨 결과, 그 기울기가 1.33에서 1.34 정도로 일관되게 측정되고 있어 Pareto 분포를 이용해 일간질의어 분포의 정상성을 평가할수 있음을 제시하였다. 이런 연구결과는 사회적 관심사와 그 변동 흐름을 해석하는데 보다 객관적이며, 효율적인 자료를 제공해 줄 수 있을 것이다.

Keywords

References

  1. 박소연, 이준호, 2005. 국내 웹 이용자의 검색 행태 추이분석, 한국문헌정보학회지, 39(2):146-160
  2. 박소연, 이준호, 2002. 로그분석을 통한 이용자의 웹문서 검색 행태에 관한연구, 정보관리학회지, 19(3):111-122
  3. 이준호, 박소연, 권혁성. 2003. 질의 로그분석을 통한 네이버 이용자의 검색 행태 연구 정보관리학회지. 20(2) : 28-41 https://doi.org/10.3743/KOSIM.2003.20.2.027
  4. 최희갑, 박원석. 2006. Zipf 분포를활용한 지역별 사업체 규모분포 특성, 한국지역학회, 22(2):275-299
  5. 한국인터넷진흥원, 2007. 2007년상반기정보화실태조사 요약보고서
  6. Basasi, G. and R. Albert. 1999. 'Emergence of scaling in random networks'. Science, 286:509-512 https://doi.org/10.1126/science.286.5439.509
  7. Champernowne, D. 1953.'A model for income distribution'. Economic Journal, 63:318-351 https://doi.org/10.2307/2227127
  8. Gabaix, X. 1999. ' Zipf's law of city sizes : An explanation'. Quarterly Journal of Economics, 114(3): 739-767 https://doi.org/10.1162/003355399556133
  9. Gabaix, X. 2000. 'Zipf's law and the growth of cities'. American Economic Review, 89(2): 129-132 https://doi.org/10.1257/aer.89.2.129
  10. Hart, P.E. and N. Oulton. 1997.' Zipf and the size distribution of firms'. Applied Economic Letters, 4:205-206 https://doi.org/10.1080/758518494
  11. Jansen, B. J., A. Spink, A., & J. Pedersen. 2005. 'Atemporal comparis on of Alta Vista Web searching'. Journal of the Amer ican Society for Information Science and Technology, 56(6): 559-570 https://doi.org/10.1002/asi.20145
  12. Reed, W. 2001.' The Pareto, Zipf and other power laws'. Economic Letters, 49:453-457 https://doi.org/10.1016/0165-1765(95)00696-D
  13. Silverstein, C., M. Henzinger, H. Marais and M. Moricz. 1999.' Analysis of a very large web search engine query bg'. SIGIR. Forum 33(1):6-12 https://doi.org/10.1145/331403.331405
  14. Spink, A. et al. 2001. ' searching the web: the public and their queries.' Journal of the American Society for information science and Technology, 52(3):.226-34 https://doi.org/10.1002/1097-4571(2000)9999:9999<::AID-ASI1591>3.0.CO;2-R
  15. Zipf, G.K. 1949. Human Behavior and the Principle of Least Effort .Reading : Addision Wesley