• 제목/요약/키워드: variable selection

검색결과 874건 처리시간 0.033초

Validation Comparison of Credit Rating Models Using Box-Cox Transformation

  • Hong, Chong-Sun;Choi, Jeong-Min
    • Journal of the Korean Data and Information Science Society
    • /
    • 제19권3호
    • /
    • pp.789-800
    • /
    • 2008
  • Current credit evaluation models based on financial data make use of smoothing estimated default ratios which are transformed from each financial variable. In this work, some problems of the credit evaluation models developed by financial experts are discussed and we propose improved credit evaluation models based on the stepwise variable selection method and Box-Cox transformed data whose distribution is much skewed to the right. After comparing goodness-of-fit tests of these models, the validation of the credit evaluation models using statistical methods such as the stepwise variable selection method and Box-Cox transformation function is explained.

  • PDF

단위 무응답 보정에서 보조변수의 선택에 관한 연구 (A Study on Auxiliary Variable Selection in Unit Nonresponse Calibration)

  • 손창균;홍기학;이기성
    • 응용통계연구
    • /
    • 제16권1호
    • /
    • pp.33-44
    • /
    • 2003
  • 조사과정에서 필연적으로 발생하는 무응답을 보정하기 위해 보조정보를 사용해야 한다. 이 때, 이용 가능한 보조정보의 차원이 크면, 계산과정에서 많은 시간이 소요되며 데이터를 다루기가 매우 어렵다. 또한 추정량의 분산이 보조전보의 차원에 의존하기 때문에 과소추정의 문제가 발생한다. 이러한 문제를 해결하기 위해 무응답 보정에서 적절한 보조정보의 선택 방법을 제안하였고, 이에 대한 효율성을 모의실험을 통해 살펴보았다.

Variable selection in censored kernel regression

  • Choi, Kook-Lyeol;Shim, Jooyong
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권1호
    • /
    • pp.201-209
    • /
    • 2013
  • For censored regression, it is often the case that some input variables are not important, while some input variables are more important than others. We propose a novel algorithm for selecting such important input variables for censored kernel regression, which is based on the penalized regression with the weighted quadratic loss function for the censored data, where the weight is computed from the empirical survival function of the censoring variable. We employ the weighted version of ANOVA decomposition kernels to choose optimal subset of important input variables. Experimental results are then presented which indicate the performance of the proposed variable selection method.

Variable Selection Criteria in Regression

  • Kim, Choong-Rak
    • Journal of the Korean Statistical Society
    • /
    • 제23권2호
    • /
    • pp.293-301
    • /
    • 1994
  • In this paper we propose a variable selection criterion minimizing influence curve in regression, and compare it with other criteria such as $C_p$(Mallows 1973) and adjusted coefficient of determination. Examples and extension to the generalized linear models are given.

  • PDF

대용량 음성인식을 위한 하이브리드 빔 탐색 방법과 가변 플로링 기법을 이용한 고속 디코더 알고리듬 연구 (Fast Decoder Algorithm Using Hybrid Beam Search and Variable Flooring for Large Vocabulary Speech Recognition)

  • 김용민;김진영;김동화;권오일
    • 음성과학
    • /
    • 제8권4호
    • /
    • pp.17-33
    • /
    • 2001
  • In this paper, we implement the large variable vocabulary speech recognition system, which is characterized by no additional pre-training process and no limitation of recognized word list. We have designed the system in order to achieve the high recognition rate using the decision tree based state tying algorithm and in order to reduce the processing time using the gaussian selection based variable flooring algorithm, the limitation algorithm of the number of nodes and ENNS algorithm. The gaussian selection based variable flooring algorithm shows that it can reduce the total processing time by more than half of the recognition time, but it brings about the reduction of recognition rate. In other words, there is a trade off between the recognition rate and the processing time. The limitation algorithm of the number of nodes shows the best performance when the number of gaussian mixtures is a three. Both of the off-line and on-line experiments show the same performance. In our experiments, there are some differences of the recognition rate and the average recognition time according to the distinction of genders, speakers, and the number of vocabulary.

  • PDF

이상진단 성능에 미치는 변수선택과 추정방법의 영향 (Effect of Different Variable Selection and Estimation Methods on Performance of Fault Diagnosis)

  • 조현우
    • 한국산학기술학회논문지
    • /
    • 제20권9호
    • /
    • pp.551-557
    • /
    • 2019
  • 생산 공정에서 발생하는 비정상적인 이상 (fault)의 진단 (diagnosis)은 고품질의 제품을 생산함에 있어 필수적이라 할 수 있다. 회분식 공정 (batch process)과 같이 부가가치가 큰 반도체나 의약품 등의 첨단 제품을 생산하는 공정에서는 더욱 실시간 진단의 역할이 커지고 있다. 본 연구에서는 회분식 공정으로부터 얻은 측정 데이터와 비선형 분류(nonlinear classification)에 기초한 실시간 이상 진단 체계에 있어서 변수선택과 미래값 추정 기법이 진단 성능에 미치는 영향을 평가한다. 공정 변수 중 진단에 필수적이며 기여도가 높은 변수만을 선택하여 진단 모델 (diagnosis model)을 구성함으로써 진단 성능의 향상을 기대할 수 있다. 본 연구에서는 여러 변수선택 (variable selection) 기법들의 진단 성능을 비교 평가한다. 또한, 현재 진행 중인 회분식 조업 데이터는 종료되기 이전에는 진단에 필요한 전체 데이터를 얻을 수 없으므로 현재 시점에서 측정되지 못한 미래 측정값 (future observations)이 추정되어야 한다. 미래값 추정방법들의 선택이 변수선택과 분류기반 진단 관점에서 진단 성능에 어떻게 영향을 주는지 평가한다. 폴리염화비닐 회분식 공정에 대한 사례 연구를 수행하여 최적의 변수선택과 미래값 추정방법을 도출하였다. 변수선택 방법에 따라 최대 21.9%와 13.3%의 성능 향상을 보였으며 미래값 추정방법에 따라서는 최대 25.8%와 15.2% 향상됨을 알 수 있었다.

Multivariate Procedure for Variable Selection and Classification of High Dimensional Heterogeneous Data

  • Mehmood, Tahir;Rasheed, Zahid
    • Communications for Statistical Applications and Methods
    • /
    • 제22권6호
    • /
    • pp.575-587
    • /
    • 2015
  • The development in data collection techniques results in high dimensional data sets, where discrimination is an important and commonly encountered problem that are crucial to resolve when high dimensional data is heterogeneous (non-common variance covariance structure for classes). An example of this is to classify microbial habitat preferences based on codon/bi-codon usage. Habitat preference is important to study for evolutionary genetic relationships and may help industry produce specific enzymes. Most classification procedures assume homogeneity (common variance covariance structure for all classes), which is not guaranteed in most high dimensional data sets. We have introduced regularized elimination in partial least square coupled with QDA (rePLS-QDA) for the parsimonious variable selection and classification of high dimensional heterogeneous data sets based on recently introduced regularized elimination for variable selection in partial least square (rePLS) and heterogeneous classification procedure quadratic discriminant analysis (QDA). A comparison of proposed and existing methods is conducted over the simulated data set; in addition, the proposed procedure is implemented to classify microbial habitat preferences by their codon/bi-codon usage. Five bacterial habitats (Aquatic, Host Associated, Multiple, Specialized and Terrestrial) are modeled. The classification accuracy of each habitat is satisfactory and ranges from 89.1% to 100% on test data. Interesting codon/bi-codons usage, their mutual interactions influential for respective habitat preference are identified. The proposed method also produced results that concurred with known biological characteristics that will help researchers better understand divergence of species.

대형 데이터에서 VIF회귀를 이용한 신속 강건 변수선택법 (Fast robust variable selection using VIF regression in large datasets)

  • 서한손
    • 응용통계연구
    • /
    • 제31권4호
    • /
    • pp.463-473
    • /
    • 2018
  • 연구에서는 선형회귀모형을 가정한 대형 데이터에서의 변수선택 알고리즘을 다룬다. 방법의 속도와 강건성에 주안점을 둔 여러 알고리즘들이 제안되었다. 그 중에서 streamwise 회귀 접근법을 사용한 VIF회귀는 신속하고 정확하게 수행된다. 그러나 VIF회귀는 최소제곱방법에 의해 모형이 추정되므로 이상치에 민감하다. 변수선택방법의 강건성을 높이기 위해 가중 추정치를 사용한 강건측도가 제안되었으며 강건 VIF회귀도 제안되었다. 본 연구에서는 잠재적 이상치를 탐지하여 제거한 후 VIF회귀를 수행하는, 빠르고 강건한 변수선택 방법을 제안한다. 제안된 방법은 모의실험과 데이터 분석 통해 다른 방법들과 비교된다.

변수평활량을 이용한 커널회귀함수 추정 (On variable bandwidth Kernel Regression Estimation)

  • 석정하;정성석;김대학
    • Journal of the Korean Data and Information Science Society
    • /
    • 제9권2호
    • /
    • pp.179-188
    • /
    • 1998
  • 커널형 회귀함수의 추정법 중에서 국소 다항회귀 추정법이 가장 우수한 것으로 알려져 있다. 국소다항회귀 추정법에서도 다른 종류의 커널추정량과 마찬가지로 평활량이 중요한 역할을 한다. 특히 회귀함수가 복잡한 구조를 가질 때 변수평활량(variable band-width)을 사용하는 것이 타당할 것이다. 본 연구에서는 완전자료기저(fully automatic, fully data-driven) 변수평활량 선택법을 제안한다. 이 선택법은 편향과 분산의 예비추정에 필요한 평활량을 교차타당성 방법으로 선택하여 MSE를 추정하고 그 값을 최소화하는 평활량을 택하는 것이다. 제안된 방법의 우수성을 모의실험을 통하여 확인하였다. 그리고 제안된 방법은 자료점이 성긴(sparse)부분에서 생길 수 있는 문제점 즉 X'X의 비정칙성(non-singularity)을 해결할 수 있는 방법이라는 데에도 큰 의미가 있다.

  • PDF

다구찌 디자인을 이용한 앙상블 및 군집분석 분류 성능 비교 (Comparing Classification Accuracy of Ensemble and Clustering Algorithms Based on Taguchi Design)

  • 신형원;손소영
    • 대한산업공학회지
    • /
    • 제27권1호
    • /
    • pp.47-53
    • /
    • 2001
  • In this paper, we compare the classification performances of both ensemble and clustering algorithms (Data Bagging, Variable Selection Bagging, Parameter Combining, Clustering) to logistic regression in consideration of various characteristics of input data. Four factors used to simulate the logistic model are (1) correlation among input variables (2) variance of observation (3) training data size and (4) input-output function. In view of the unknown relationship between input and output function, we use a Taguchi design to improve the practicality of our study results by letting it as a noise factor. Experimental study results indicate the following: When the level of the variance is medium, Bagging & Parameter Combining performs worse than Logistic Regression, Variable Selection Bagging and Clustering. However, classification performances of Logistic Regression, Variable Selection Bagging, Bagging and Clustering are not significantly different when the variance of input data is either small or large. When there is strong correlation in input variables, Variable Selection Bagging outperforms both Logistic Regression and Parameter combining. In general, Parameter Combining algorithm appears to be the worst at our disappointment.

  • PDF