DOI QR코드

DOI QR Code

Visualizing Large Two-way Crosstabs by PLS Method

PLS 방법에 의한 "큰" 2원 교차표의 시각화

  • Published : 2009.05.31

Abstract

On the visualization of categorical data, if the number of categories is small, we can consider Hayashi Quantification Method 3 for visualization of the categories of the variables. But it is known that the method is unstable because it quantifies more significantly for the small frequency categories rather than large frequency categories. The purpose of this research is to propose the visualization of large two-way crosstabulation data by PLS methods for checking the relationship between the categories of row and column variables. In this research, we utilize the PLS visualization methods (Huh et al., 2007) that is proposed for visualization of the qualitative data to visualize the categories of the large categorical data. We also compared both methods by applying them to real data, and studied the results from PLS visualization method on the real categorized data with many categories.

범주형 자료의 시각화에서 범주가 많지 않은 경우에는 기존의 Hayashi의 수량화 제3방법을 이용하여 두변수의 범주들 사이의 연관성에 대한 시각화를 구할 수 있다. 그러나, Hayashi방법은 큰 빈도의 범주들보다 작은 빈도의 범주들을 두드러지게 수량화하므로 결과가 불안정하다는 문제점이 있다 (허명회와 이용구, 2006). 이 연구의 목적은 범주수가 "큰" 두 범주형 변수 R과 C에 대하여 각 변수 벌주들 사이의 연관성을 살펴보기 위한 시각화 방법을 제안하는 데 있다. 이를 위하여 우리는 2개 변수군 수치형 자료를 시각화하는 방법으로 제안된 허명회 등 (2007)의 PLS 시각화 방법을 범주형 자료에 적용하고자 한다. 즉, 범주형 변수 R과 C의 범주들 각각을 0/1로 더미 코드화하여 각각 R개와 C개의 범주군으로 변환한 다음 허명회 등 (2007)에서 제시한 PLS 시각화 방법을 적용하고자 한다. 이러한 방법은 Hayashi 수량화 방법의 문제점을 해결할 수 있을 뿐만 아니라 행변수와 열변수 각각이 여러 개의 범주형 변수들의 집합인 변수군의 경우에도 확대 적용 가능하다. 순치 예로서 German Credit 자료에서 10개 금융관련 변수의 34개 범주를 R로 간주하고 10개 사회인구적 변수의 46개 범주를 C로 간주하여 새 방법론을 적용해 보인다.

Keywords

References

  1. 김종덕 (2004). 고유벡터 기저를 이용한 회귀방법의 비교, <한국자료분석학회지>, 6, 205-218
  2. 박성현, 최엄문, 박창순 (1999). 편최소제곱 반응표면함수를 이용한 공정 최적화에 관한 연구, <품질경영학회지>, 27, 237-250
  3. 전치혁, 이혜선, 이대원, 장창환 (2006). X-선 회절 데이터에 PLS 기법을 이용한 철광석의 환원율 예측, <한국통계학회 2006년 춘계학술발표회 논문집>, 30
  4. 허명회 (1998). <수량화 방법 Ⅰ, Ⅱ, Ⅲ, Ⅳ>, 자유아카데미, 서울
  5. 허명회 (1999). <다변량 수량화>, 자유아카데미, 서울
  6. 허명회, 이용구 (2006). 수량화 제3방법의 축소 해, <응용통계연구>, 19, 331-338 https://doi.org/10.5351/KJAS.2006.19.2.331
  7. 허명회, 이용구, 이성근 (2007). PLS 기법에 의한 (X, Y)자료의 시각화, <응용통계연구>, 20, 345-355 https://doi.org/10.5351/KJAS.2007.20.2.345
  8. 岩坪秀一 (1987). <數量化法の 基礎>, 朝倉書店, 동경
  9. 駒澤勉 (1992). <數量化理論>, 放送大學敎育振興會, 동경
  10. Helland, I. (2006). Partial least squares recression, The Encyclopedia of Statistical Sciences, 2nd ed.(edited by Kotz), 5997-5962
  11. Kim, J. D. (2001). A general weighting scheme of partial least squares regression, Journal of the Korean Data Analysis Society, 3, 11-21
  12. Kim, J. D. (2003a). Alternative expressions of regression vector for principal component regression and partial least squares regression, Journal of the Korean Data Analysis Society, 5, 17-26
  13. Kim, J. D. (2003b). Projection matrices for partial least squares regression and principal component re-gression, Journal of the Korean Data Analysis Society, 5, 787-800
  14. Kim, J. D. (2003c). Unified non-iterative algorithm for principal component regression, partial least squares and ordinary least squares, Journal of the Korean Data and Information Science Society, 14, 355-366
  15. Rosipal, R. and Kramer, N. (2006). Overview and recent advances in partial least squares, Lecture Notes in Computer Science, 3940, 34-51, Springer-Verlag