DOI QR코드

DOI QR Code

k-Bitmap Clustering Method for XML Data based on Relational DBMS

관계형 DBMS 기반의 XML 데이터를 위한 k-비트맵 클러스터링 기법

  • 이범석 (가톨릭대학교 컴퓨터공학과) ;
  • 황병연 (가톨릭대학교 컴퓨터정보공학부)
  • Published : 2009.12.31

Abstract

Use of XML data has been increased with growth of Web 2.0 environment. XML is recognized its advantages by using based technology of RSS or ATOM for transferring information from blogs and news feed. Bitmap clustering is a method to keep index in main memory based on Relational DBMS, and which performed better than the other XML indexing methods during the evaluation. Existing method generates too many clusters, and it causes deterioration of result of searching quality. This paper proposes k-Bitmap clustering method that can generate user defined k clusters to solve above-mentioned problem. The proposed method also keeps additional inverted index for searching excluded terms from representative bits of k-Bitmap. We performed evaluation and the result shows that the users can control the number of clusters. Also our method has high recall value in single term search, and it guarantees the searching result includes all related documents for its query with keeping two indices.

웹2.0 환경의 발달과 함께 XML 데이터의 사용도 증가하였는데, 특히 블로그나 뉴스 피드의 정보 전달을 위한 RSS나 ATOM 포맷의 기반 기술로 사용되면서 그 장점과 가치를 인정받고 있다. XML 데이터의 인덱싱을 위한 여러 기법들 중 빠른 검색성능을 보인 비트맵 클러스터링은 관계형 DBMS를 기반으로 메모리에 인덱스를 유지하는 기법이다. 기존의 비트맵 클러스터링 기법을 이용하여 XML 데이터를 인덱싱할 때 너무 많은 클러스터가 생성되어 오히려 검색 효율과 결과의 품질이 저하되는 문제점이 있었다. 본 논문에서는 이 문제점을 해결하기 위해 사용자가 제시하는 k개의 클러스터를 생성하는 k-비트맵 클러스터링 기법과 대표비트를 생성할 때 배제된 단어를 검색하기 위한 역인덱스를 함께 유지하는 방법을 제안한다. 성능평가를 수행한 결과 제안하는 기법은 생성되는 클러스터의 수를 임의로 설정할 수 있을 뿐만 아니라 단일 단어 검색에서 높은 재현율을 보였고, 2개의 인덱스를 함께 유지할 때에는 질의에 대해 모든 관련된 문서의 반환을 보장하였다.

Keywords

References

  1. M. Olson and U. Oqbuji, “The Python Web Service Developer: RSS for Python,” http://www.ibm.com/developerworks/webservices/library/ws-pyth11.html, November, 2002
  2. J. Yoon, V. Raghavan, V. Chakilam, and L. Kerschberg, “BitCube: A Three-Dimensional Bitmap Indexing for XML Documents,” Journal of Intelligent Information System, Vol.17, pp.241-254, 2001 https://doi.org/10.1023/A:1012861931139
  3. J. Yoon, V. Raghavan, and V. Chakilam, “BitCube: Clustering and Statistical Analysis for XML Documents,” In Proc. of the 13th International Conference on Scientific and Statistical Database Management, Fairfax, Virginia, July, 2001
  4. 민경섭, 김형주, “상이한 구조의 XML 문서들에서 경로 질의 처리를 위한 RDBMS 기반 역인덱스 기법”, 정보과학회논문지, 제30권 제4호, pp.420-428, 2003
  5. 서치영, 이상원, 김형주, “XML 문서에 대한 RDBMS에 기반을둔 효율적인 역색인 기법”, 정보과학회논문지, 제30권 제1호, pp.27-40, 2003
  6. J. McHugh, S. Abiteboul, R. Goldman, D. Quass, and J. Widom, “Lore: A Database Management System for Semistructured Data,” ACM SIGMOD Record, Vol.26, No.3, pp.54-66, 1997 https://doi.org/10.1145/262762.262770
  7. C. Chung, J. Min, and K. Shim, “APEX: An Adaptive Path Index for XML Data,” In Proc. of the International Conference on ACM SIGMOD, pp.121-132, Madison, Wisconsin, June, 2002 https://doi.org/10.1145/564691.564706
  8. R. Kaushik, P. Shenoy, P. Bohannon, and E. Gudes, “Exploiting Local Similarity for Indexing Paths in Graph-Structured Data,” In Proc. of the 18th IEEE International Conference on Data Engineering, pp.129-140, 2002
  9. T. Dalamagas, T. Cheng, K. J. Winkel, and T. Sellis, “A Methodology for Clustering XML Documents by Structure,” Information Systems, Vol.31, Issue 3, Elsevier Science Ltd., pp.187-228, May, 2006 https://doi.org/10.1016/j.is.2004.11.009
  10. T. Tran, R. Nayak, and P. Bruza, “Combining Structure and Content Similarities for XML Document Clustering,” In Proc. of the 7th Australasian Data Mining Conference, pp.219-226, 2008
  11. J. Lee and B. Hwang, “Path Bitmap Indexing for Retrieval of XML Documents,” Lecture Notes in Computer Science, Vol.3885, Springer-Verlag, April, 2006 https://doi.org/10.1007/11681960_32
  12. 김의찬, 황병연, “데이터 마이닝에서 비트 트랜잭션 클러스터링을 이용한 빈발항목 생성”, 정보처리학회논문지D, 제13-D권, 제3호, pp.293-298, 2006 https://doi.org/10.3745/KIPSTD.2006.13D.3.293