DOI QR코드

DOI QR Code

A new method for calculating quantiles of grouped data based on the frequency polygon

집단화된 통계자료의 도수다각형에 근거한 새로운 분위수 계산법

  • Kim, Hyuk Joo (Division of Mathematics & Informational Statistics and Institute of Basic Natural Sciences, Wonkwang University)
  • 김혁주 (원광대학교 수학.정보통계학부 및 기초자연과학연구소)
  • Received : 2017.02.28
  • Accepted : 2017.03.27
  • Published : 2017.03.31

Abstract

When we deal with grouped statistical data, it is desirable to use a calculation method that gives as close value to the true value of a statistic as possible. In this paper, we suggested a new method to calculate the quantiles of grouped data. The main idea of the suggested method is calculating the data values by partitioning the pentagons, that correspond to the class intervals in the frequency polygon drawn according to the histogram, into parts with equal area. We compared this method with existing methods through simulations using some datasets from introductory statistics textbooks. In the simulation study, we simulated as many data values as given in each class interval using the inverse transform method, on the basis of the distribution that has the shape given by the frequency polygon. Using the sum of squares of differences from quantiles of the simulated data as a criterion, the suggested method was found to have better performance than existing methods for almost all quartiles and deciles.

집단화되어 있는 통계자료의 통계량을 구하고자 하는 경우 통계량의 참값에 보다 가까운 값을 얻게 해주는 계산 방법을 사용하는 것이 바람직하다. 본 논문에서는 집단화된 자료의 분위수들을 계산하는 새로운 방법을 제시하였다. 제시된 방법의 주된 아이디어는, 히스토그램에 따라 그려지는 도수다각형에서 각 계급구간에 대응하는 오각형의 넓이를 그 계급구간의 도수보다 하나 많은 개수의 부분으로 등분함으로써 자룟값들을 계산하는 것이다. 제시된 방법을 모의실험을 통해 기존의 방법들과 비교하였는데, 통계학개론 교재에 주어져 있는 몇 가지의 자료를 대상으로 하였다. 모의자료의 생성 방법은, 각 계급구간에서 도수다각형에 의해 주어진 모양의 확률밀도함수를 갖는 분포를 찾아낸 뒤 역변환 방법을 이용하여, 이 분포를 따르는 모의자룟값들을 각 계급구간에서 주어진 도수와 같은 개수만큼 발생시키는 방식이다. 모의자료의 분위수와의 차의 제곱합을 기준으로 할 때 제시된 방법이 기존의 방법들보다 거의 모든 사분위수와 십분위수에서 우세한 결과를 주는 것을 볼 수 있었다.

Keywords

References

  1. Kim, B. H., Choi, K. C., Baek, H. Y., Kim, H. J., Dong, K. H., Park, T. R. and Chang, I. H. (2002). Understanding statistics, Freedom Academy, Paju.
  2. Kim, H. J. (2013). A quantile calculation method for grouped data based on the frequency polygon and the related simulation study. Journal of the Korean Data Analysis Society, 15, 3149-3156.
  3. Kim, H. J. and Yu, J. S. (2008). On a method for computing quantiles of grouped data. Journal of the Korean Data Analysis Society, 10, 3453-3464.
  4. Kim, W. C., Kim, J. J., Park, B. U., Park, S. H., Song, M. S., Lee, S. Y., Lee, Y. J., Jeon, J. W. and Cho, S. (2001). General statistics, 2nd Ed., Youngji Publishers, Seoul.
  5. Kim, W. C., Kim, J. J., Park, S. H., Park, H. N., Song, M. S., Jeon, J. W., Chung, H. Y. and Cho, S. (2000). Modern statistics, 3rd Ed., Youngji Publishers, Seoul.
  6. Kim, Y. D., Kim, W. C., Park, B. U., Park, S. H., Park, T. S., Oh, H. S., Lee, S. Y., Lee, Y. J., Lee, J. Y., Lim, Y. H., Jeon, J. W. and Cho, S. (2008). Introduction to statistics, 5th Ed., Youngji Publishers, Seoul.
  7. Lee, W. K., Kim, S. W., Kim, H. I, Chang, H. H., Lee, J. M., Kim, Y. J. and Lee, M. Y. (2014). Development of quality of life with WHOQOL-HIV BREF Korean version among HIV patients in Korea. Journal of the Korean Data & Information Science Society, 25, 337-347. https://doi.org/10.7465/jkdi.2014.25.2.337
  8. Ryu, G. Y. and Moon, Y. S. (2014). A case study on verification of internet survey. Journal of the Korean Data & Information Science Society, 25, 11-18. https://doi.org/10.7465/jkdi.2014.25.1.11