DOI QR코드

DOI QR Code

Outlier detection and treatment in industrial sampling survey

경제조사에서의 이상치 탐지와 처리방법

  • Joo, Young Sun (Department of Statistics, Kyungpook National University) ;
  • Cho, Gyo-Young (Department of Statistics, Kyungpook National University)
  • Received : 2016.01.04
  • Accepted : 2016.01.13
  • Published : 2016.01.31

Abstract

Outliers in surveys can have a large effect on estimates of totals. This is especially true in business surveys where the populations are drawn are typically skewed. In this paper, we discussed the practical development and implementation of methods to identify and deal with outliers. A detection method is based on quartile method and detected outlier is processed in various ways. The study examines two versions of winsorised estimators with three different cut-off thresholds for each one. For the simulation study, four types of weight transformation function have been considered.

통계조사에서 이상치는 총계추정에 큰 영향을 줄 수 있다. 통계조사에서 보고된 값은 극단적이 아니지만 그것의 가중치 (weight)가 커서 추정값에 큰 영향을 주거나, 극단값이라 해도 그것이 작은 가중치를 가질 때 추정에 큰 영향을 주지 않는 경우도 있다. 이러한 극단값이나 추정에 영향을 주는 값 들은 표본조사에서 민감하다. 일반적으로 치우친 분포를 가진 모집단에서 추출된 표본으로 조사를 하는 사업체 조사에서는 특별히 더 큰 영향을 준다. 본 연구에서는, 우리는 이상치를 판별하고 처리하는 방법에 대해서 다루고자 한다. 이상치 판별은 분위수에 기초해서 판정하였으며, 판정된 이상치는 여러 가지 다양한 방법을 적용해 보았다. 연구에서는 2가지 winsorised 방법과 세가지 cut-off 방법에 대하여 적용하였다. 그리고 시뮬레이션에서는 4가지 방법의 가중치를 각각 적용하여 진행하였다. 여러 가지 이상치 처리방법들을 비교해 본 결과 type I 윈저화 방법보다는 type II 윈저화 방법이 효율적인 결과값을 보여주었으며, 가중치 변환방법들 중에서는 제곱근 변환을 통한 가중치 감소방법이 다른 처리방법에 비해 좋은 결과값을 보여주었다.

Keywords

References

  1. Chambers, R., Kokic, P., Smith, P. and Cruddas, M. (2000). Winsorization for identifying and treating outliers in business surveys. Proceedings of the Second International Conference on Establishment Surveys, 717-726, American Statistical Association Alexandria, Virginia.
  2. Eltinge, J. L. and Cantwell, P. J. (2006). Outliers and influential observations in establishment surveys, Federal Economic Statistics Advisory Committee, http://www.bls.gov/bls/fesacp3060906.pdf.
  3. Hidiroglou, M. A. and Berthelot, J. M. (1986). Statistical editing and imputation for periodic business surveys. Survey Methodology, 12, 73-83.
  4. Ishikawa, A., Endo, S. and Shiratori, T. (2010). Treatment of outliers in business surveys : The case of short-term economic survey of enterprises in Japan (Tankan), 10-E-8, Bank of Japan, Japan.
  5. Kim, J. (2006). Weight reduction method for ourlier in survey sampling. Communications for Statistical Applications and Methods, 13, 19-27. https://doi.org/10.5351/CKSS.2006.13.1.019
  6. Kim, J. T. (2014). Lowness and outlier analysis of biological oxygen demand on Nakdong main stream river. Journal of the Korean Data & information Science Society, 25, 119-130. https://doi.org/10.7465/jkdi.2014.25.1.119
  7. Kokic, P. N. and Bell, P. A. (1994). Optimal winsorizing cutoffs for a stratified finite population estimator. Journal of Official Statistics, 10, 419-435.
  8. Lee, H. (1995). Outliers in business surveys. Chapter 26 in Business Survey Methods (B. Cox et al., eds.), Wiley, New York.
  9. Mattews, S. and Berard, H. (2002). The outlier detection and treatment strategy for the monthly wholesale and retail trade survey of statistics Canada. in Proceedings of the Survey Methods Section, 63-68, Statistical Society of Canada.
  10. Sohn, K. C. and Shin, I. H. (2012). Outlier detection using Grubb and Cochran test in clinical data. Journal of the Korean Data & information Science Society, 23, 657-663. https://doi.org/10.7465/jkdi.2012.23.4.657
  11. Song, G. M., Moon, J. E. and Park, C. (2011). Realization of an outlier detection algorithm using R. Journal of the Korean Data & information Science Society, 22, 449-458.
  12. Tukey, J. W. (1977). Exploratory Data Analysis, Addison-Wesley, California.

Cited by

  1. An Empirical Analysis of Building Energy Consumption Considering Building and Local Factors in Seoul vol.54, pp.5, 2016, https://doi.org/10.17208/jkpa.2019.10.54.5.129
  2. 티셔츠 상품의 판매패턴과 연관된 상품속성 vol.44, pp.6, 2016, https://doi.org/10.5850/jksct.2020.44.6.1053
  3. 머신 러닝을 활용한 의류제품의 판매량 예측 모델 - 아우터웨어 품목을 중심으로 - vol.23, pp.4, 2016, https://doi.org/10.5805/sfti.2021.23.4.480