A Research for Web Documents Genre Classification using STW

STW를 이용한 웹 문서 장르 분류에 관한 연구

  • Ko, Byeong-Kyu (Dept. of Computer Engineering, Chosun University) ;
  • Oh, Kun-Seok (Dept. of Hospital information Management, Gwangju Health University) ;
  • Kim, Pan-Koo (Dept. of Computer Engineering, Chosun University)
  • 고병규 (조선대학교 컴퓨터공학과) ;
  • 오군석 (광주보건대학교 병원전산관리과) ;
  • 김판구 (조선대학교 컴퓨터공학과)
  • Published : 2012.12.30

Abstract

Many researchers have been studied to reveal human natural language to let machine understand its meaning by text based, page rank based or more. Particularly, it has been considered that URL and HTML Tag information in web documents are attracting people' attention again to analyze huge amount of web document automatically. In this paper, we propose a STW (Semantic Term Weight) approach based on syntactic and linguistic structure of web documents in order to classify what genres are. For the evaluation, we analyzed more than 1,000 documents from 20-Genre-collection corpus for training the documents based on SVM algorithm. Afterwards, we tested KI-04 corpus to evaluate performance of our proposed method. This paper measured their accuracy by classifying them into an experiment using STW and one without u sing STW. As the results, the proposed STW based approach showed approximately 10.2% which Is higher than one without use of STW.

웹 문서의 지속적인 증가로 인해 텍스트 기반, Page Rank 등의 방법으로 한 연구들이 증가하고 있다. 특히 웹 문서 내 URL 정보, HTML Tag 정보 등을 활용하는 연구들이 다시 주목을 받고 있다. 따라서 웹 문서 장르 분류를 위해 앞서 언급한 웹 문서 내 특징 요소들을 바탕으로 본 논문에서는 STW(Semantic Term Weight)를 적용하여 웹 문서 장르 분류하는 연구를 기술한다. 웹 문서 장르 분류에 사용되는 데이터 셋은 학습 문서와 테스트 문서로 구성되고, SVM 알고리즘을 사용하여 웹 문서 분류 실험을 수행한다. 학습 과정을 위해 20-Genre-collection corpus 내 1,000여개의 문서를 선정하여 SVM 알고리즘을 통해 학습하였고, 테스트 과정에서 사용된 데이터 셋은 KI-04 corpus를 사용하였다. 테스트 과정 후 STW를 사용한 실험과 STW를 사용하지 않은 실험으로 분류하여 정확도를 측정하였다. 또한 이를 바탕으로 1,212개의 테스트 문서를 분류하였다. 그 결과 STW를 사용한 실험 이 그렇지 않은 실험 보다 약 10.2% 높은 정확도를 보였다.

Keywords

References

  1. Boese, E. S., and Howe, A. E., "Effects of web document evolution on genre classification," CIKM'05 Proceedings of the 14th ACM international conference on Information and knowledge management, pp. 632-639, 2005.
  2. 임철수, "웹 검색 시스템을 위한 자동 문서 장르 분류," 한국과학기술원 전자전산학과 전산학 전공 박사학위 논문, 2005년 2월.
  3. 이용배, 맹성현,"장르분류 모델의 도메인 변경에 따른 적응력 분석," 정보과학회지 논문지: 소프트웨어 및 응용, Vol. 38 No. 8, pp. 441-451, 2011.
  4. Biber, "The Multidimensional approach to linguistic analyses of genre vari-ation: An overview of methodology and finding," Computer in the Humanities, 26(5-6), pp. 331-347, 1992. https://doi.org/10.1007/BF00136979
  5. A. McCallum, "Building Domain-Specific Search Engines with Machine Learning Techniques", Proceeding AAAI Symp. Intelligent Agents in Cyberspace, AAAI Press, pp. 28-39, 1999.
  6. Stamatatos, E., N. Fakotakis, and G.Kokkinakis, "Automatic text categorization in terms of genre and author". Computational Linguistics, Vol. 26, No. 4, pp. 471-495, 2000a. https://doi.org/10.1162/089120100750105920
  7. Stamatatos, E., N. Fakotakis, and G. Kokkinakis. "Text genre detection using Com-mon word frequencies," In Proceedings of the International Conference on Computational Linguistics (COLING2000), pp. 808-814, 2000b.
  8. Kessler, Brett, Geoffrey Nunberg, and Hinrich Schutze, "Automatic detection of text genre", Proceedings of the Thirty-Fifth Annual Meeting of the Association for Computational Linguistics and Eighth conference of the European Chapter of the Association for Computational Linguistics, pp. 32-38, Somerset, New Jersey. Association for Computational Linguistics, 1997.
  9. 황명권, "지능적인 웹 검색을 위한 의미적 문서 태깅 방법 연구", 조선대학교 대학원, 박사 학위 논문, 2010.
  10. Kraaij, Wessel, Thijs Westerveld, and Djoerd Hiemstra. "The importance of prior probabilities for entry page search". In proceedings of the 25th Annual International ACM SIGIR Conference on Research and development in information retrieval, pp. 27-34, 2002.
  11. Karlgren, Jussi, Ivan Bretan, Johan Dewe, Anders Hallberg, and Niklas Wolkert, "Iter-ative information retrieval using fast clustering and usage-specific genres". In Proceedings of the Eighth DELOS Workshop on User Interfaces in Digital Libraries, pp. 85-92, 1998.
  12. Vedrana Vidulin, Mitja Luštrek, Matjaž Gams, "Multi-Label Approaches to Web Genre Identification", Journal for Language Technology and Computational Linguistics, Vol. 24, No. 1, pp. 97-144, 2009.
  13. Eissen, S. M. Z. and Stein, B., "Genre Classification of web pages: User study and feasibility analysis", In In: Biundo S., Fruhwirth T., Palm G. (eds.): Advances in Artificial Intelligence, pp. 256-269, 2004.
  14. K. Crowston and M. Williams, "Reproduced and emergent genres of communication on the worldwide web", In proceedings of the 30th Hawaiian International Conference on System Sciences, Wailea, Hawaii, pp. 201-215, 2000.
  15. Rosso, M. A., "User-based identification of Web genres", Journal of the American Society for Information Science and Technology, Vol. 59, Issue. 7, pp. 1053-1072, 2008. https://doi.org/10.1002/asi.20798