DOI QR코드

DOI QR Code

PCA 기반 군집화를 이용한 해슁 기법

A Hashing Method Using PCA-based Clustering

  • 박정희 (충남대학교 컴퓨터공학과)
  • 투고 : 2014.03.21
  • 심사 : 2014.04.29
  • 발행 : 2014.06.30

초록

해슁(hashing)을 기반으로 한 근사 최근접 이웃 탐색(approximate nearest neighbors search, ANN search) 방법에서는 데이터 샘플들을 k-비트 이진 코드로 변환하는 해쉬 함수들을 이용함으로써 근접 이웃 탐색이 이진변환 공간에서 이루어지게 된다. 본 논문에서는 PCA 기반 군집화 방법인 Principal Direction Divisive Partitioning(PDDP)를 이용한 해슁 방법을 제안한다. PDDP는 가장 큰 분산을 가지는 클러스터를 선택하여 그 클러스터의 첫 번째 주성분 방향을 이용하여 두 개의 클러스터로 분할하는 과정을 반복적으로 시행하는 군집화 방법이다. 제안하는 해슁 방법에서는 PDDP에서 분할을 위해 사용하는 주성분방향을 바이너리 코딩을 위한 사영벡터로서 사용한다. 실험결과는 제안하는 방법이 다른 해슁 방법들과 비교하여 경쟁력 있는 방법임을 입증한다.

In hashing-based methods for approximate nearest neighbors(ANN) search, by mapping data points to k-bit binary codes, nearest neighbors are searched in a binary embedding space. In this paper, we present a hashing method using a PCA-based clustering method, Principal Direction Divisive Partitioning(PDDP). PDDP is a clustering method which repeatedly partitions the cluster with the largest variance into two clusters by using the first principal direction. The proposed hashing method utilizes the first principal direction as a projective direction for binary coding. Experimental results demonstrate that the proposed method is competitive compared with other hashing methods.

키워드

참고문헌

  1. P. Indyk and R. Motwani, "Approximate nearest neighbors: Towards removing the curse of dimensionality", Proceedings of ACM Symposium on theory of computing, 1998.
  2. M. Muja and D. Lowe, "Fast approximate nearest neighbors with automatic algorithm configuration", Proceedings of International Conference on Computer Vision Theory and Applications, 2009.
  3. A. Gionis and P. Indyk and R. Motwani, "Similarity search in high dimensions via hashing", Proceedings of VLDB, 518-529, 1999.
  4. X.-J. Wang and L. Zhang and F. Jing and W.-Y. Ma, "Annosearch: Image auto-annotation by search", Proceedings of CVPR, 1483-1490, 2006.
  5. Y. Weiss and A. Torralba and R. Fergus, "Spectral Hashing", Proceedings of Advances in Neural Information Processing Systems, 21, 1753-1760, 2008.
  6. D. Boley, "Principal direction divisive partitioning", Data mining and knowledge discovery, 2(4), 325-344, 1998. https://doi.org/10.1023/A:1009740529316
  7. Y. Lin and D. Cai and C. Li, "Density sensitive hashing", Proceedings of CoRR, 2012.
  8. http://yann.lecun.com/exdb/mnist