DOI QR코드

DOI QR Code

A credit classification method based on generalized additive models using factor scores of mixtures of common factor analyzers

공통요인분석자혼합모형의 요인점수를 이용한 일반화가법모형 기반 신용평가

  • Lim, Su-Yeol (Department of Statistics, Chonnam National University) ;
  • Baek, Jang-Sun (Department of Statistics, Chonnam National University)
  • Received : 2012.01.11
  • Accepted : 2012.02.15
  • Published : 2012.03.31

Abstract

Logistic discrimination is an useful statistical technique for quantitative analysis of financial service industry. Especially it is not only easy to be implemented, but also has good classification rate. Generalized additive model is useful for credit scoring since it has the same advantages of logistic discrimination as well as accounting ability for the nonlinear effects of the explanatory variables. It may, however, need too many additive terms in the model when the number of explanatory variables is very large and there may exist dependencies among the variables. Mixtures of factor analyzers can be used for dimension reduction of high-dimensional feature. This study proposes to use the low-dimensional factor scores of mixtures of factor analyzers as the new features in the generalized additive model. Its application is demonstrated in the classification of some real credit scoring data. The comparison of correct classification rates of competing techniques shows the superiority of the generalized additive model using factor scores.

로지스틱판별분석은 금융 분야에서 유용하게 사용되고 있는 통계적 기법으로 신용평가 시 해석이 쉽고 우수한 분별력으로 많이 활용되고 있지만 종속변수에 대한 설명변수들의 비선형적인 관계를 설명하는 부분에는 한계점이 있다. 일반화가법모형은 로지스틱판별모형의 장점과 함께 종속변수와 설명변수 사이의 비선형적인 관계도 설명할 수 있다. 그러나 연속형 설명변수의 수가 대단히 많은 경우이 두 방법은 모형에 유의한 변수를 선택해야하는 문제점이 있다. 따라서 본 연구에서는 다수의 연속형 설명변수들을 공통요인분석자혼합모형에 의한 차원축소를 통해 변환된 소수의 요인점수들을 일반화가법모형의 새로운 연속형 설명변수로 사용하여 신용분류를 하는 방법을 제시한다. 실제 금융자료를 이용하여 로지스틱판별모형과 일반화가법모형, 그리고 본 연구에서 제안한 방법에 의한 정분류율을 비교한 결과 본 연구에서 제안한 방법의 분류 성능이 더 우수하였다.

Keywords

References

  1. 기승도, 강기훈 (2010). 일반화가법모형에서 축소방법의 적용연구. <응용통계연구>, 23, 207-218.
  2. 구자용, 최대우, 최민성 (2005). 스플라인을 이용한 신용 평점화. <응용통계연구>, 18, 543-553.
  3. 한성실, 정기문 (2004). 로지스틱 회귀모형을 이용한 채택확률모형. <한국자료분석학회>, 6, 1153-1161.
  4. 홍종선, 정민섭 (2011). 신용평가에서 로지스틱회귀를 이용한 미결정자 추론. <한국데이터정보과학회지>, 22, 149-157.
  5. Baek, J., McLachlan, G. J. and Flack, L. (2010). Mixtures of factor analyzers with common factor loadings: applications to the clustering and visualisation of high-dimensional data. IEEE Transactions on Pattern Analysis and Machine Intelligence, 32, 1298-1309. https://doi.org/10.1109/TPAMI.2009.149
  6. Baesens, B., Van Gestel, T., Viaene, S., Stepanova, M., Suykens, J. and Vanthienen, J. (2003). Benchmarking state-of-the-art classification algorithms for credit scoring. Journal of the Operational Research Society, 54, 627-635. https://doi.org/10.1057/palgrave.jors.2601545
  7. Berkson, J. (1951). Why I prefer logits to probits. Biometrics, 7, 327-339. https://doi.org/10.2307/3001655
  8. Brooks, C. A., Clark, R. R., Hadgu, A. and Jones, A. M. (1988). The robustness of the logistic risk functions. Communication in Statistics, Simulation, 17, 1-24.
  9. Ghahramani, Z. and Hinton, G. E. (1996). The EM algorithm for mixture of factor analyzers, Technical Report CRG-TR-96-1, 8, University of Toronto, Canada.
  10. Lin, D. Y., Wei, L. J. and Ying, Z. (2002). Model-checking techniques based on cumulative residuals. Biometrics, 58, 1-12. https://doi.org/10.1111/j.0006-341X.2002.00001.x
  11. Press, S. R. and Wilson, S. (1978). Choosing between logistic regression and discriminant analysis. Journal of the American Statistical Association, 73, 669-705.

Cited by

  1. A Study on the U-Library Service vol.47, pp.1, 2013, https://doi.org/10.4275/KSLIS.2013.47.1.081
  2. A longitudinal study for child aggression with Korea Welfare Panel Study data vol.25, pp.6, 2014, https://doi.org/10.7465/jkdi.2014.25.6.1439
  3. 경시적 자료를 이용한 아동 학업성취도 분석 vol.28, pp.1, 2017, https://doi.org/10.7465/jkdi.2017.28.1.1