DOI QR코드

DOI QR Code

A Semi-supervised Dimension Reduction Method Using Ensemble Approach

앙상블 접근법을 이용한 반감독 차원 감소 방법

  • 박정희 (충남대학교 컴퓨터공학과)
  • Received : 2011.10.25
  • Accepted : 2012.02.08
  • Published : 2012.04.30

Abstract

While LDA is a supervised dimension reduction method which finds projective directions to maximize separability between classes, the performance of LDA is severely degraded when the number of labeled data is small. Recently semi-supervised dimension reduction methods have been proposed which utilize abundant unlabeled data and overcome the shortage of labeled data. However, matrix computation usually used in statistical dimension reduction methods becomes hindrance to make the utilization of a large number of unlabeled data difficult, and moreover too much information from unlabeled data may not so helpful compared to the increase of its processing time. In order to solve these problems, we propose an ensemble approach for semi-supervised dimension reduction. Extensive experimental results in text classification demonstrates the effectiveness of the proposed method.

클래스들 간의 거리를 최대화시키는 사영 방향을 구하는 감독차원감소 방법인 선형판별분석법(LDA)은 클래스 정보를 가진 데이터의 수가 매우 적을 때 성능이 급격히 저하되는 경향이 있다. 이러한 경우 상대적으로 저렴한 비용으로 얻을 수 있는 클래스 라벨 정보가 없는 데이터를 활용할 수 있는 반감독 차원 감소법이 사용될 수 있다. 그러나 통계적 차원 감소법에서 흔히 사용되는 행렬연산은 많은 양의 데이터를 사용하는데 메모리와 처리시간에서 한계가 있고, 적은 수의 라벨드 데이터(labeled data)에 비해 너무나 많은 언라벨드 데이터(unlabeled data)의 사용은 처리 시간의 증가에 비해 오히려 성능감소를 가져올 수 있다. 이러한 문제들을 극복하기 위해 앙상블 접근법을 이용한 반감독 차원 감소 방법을 제안한다. 문서분류 문제에서의 실험결과를 통해 제안한 방법의 성능을 입증한다.

Keywords

References

  1. Y. Song, F. Nie, C. Zhang, and S. Xiang, "A unified framework for semi-supervised dimensionality reduction," Pattern recognition, Vol.41, pp.2789-2799, 2008. https://doi.org/10.1016/j.patcog.2008.01.001
  2. D. Cai, X. He, and J. Han, "Semi-supervised discriminant analysis," Proceedings of the international conference on computer vision, 2007.
  3. G. Lim and C. H. Park, "Semi-supervised dimension reduction using graph-based discriminant analysis," Proceedings of the international conference on computer and information technology, 2009.
  4. Y. Lee, Y. Shin, and C. H. Park, "Extending linear discriminant analysis by using unlabeled data," Proceedings of the international conference on computer and information technology, 2011.
  5. K. Fukunaga, "Introduction to Statistical Pattern Recognition," second edition, Academic Press, 1990.
  6. J. Wang, F. Wang, C. Zhang, H. Shen, and L. Quan, "Linear neighborhood propagation and its application," IEEE transactions on pattern analysis and machine intelligence, Vol.31, No.9, pp.1600-1615, 2009. https://doi.org/10.1109/TPAMI.2008.216
  7. G. H. Golub and C. F. Loan, "Matrix computations," 3rd edition, The Johns Hopkins University Press, 1996.
  8. H. Kim, P. Holland and H. Park, "Dimension reduction in text classification with support vector machines," Journal of machine learning research, Vol.6, pp.37-53, 2005.
  9. http://glaros.dtc.umn.edu/gkhome/cluto/cluto/download