DOI QR코드

DOI QR Code

Threshold estimation for the composite lognormal-GPD models

로그-정규분포와 파레토 합성 분포의 임계점 추정

  • Kim, Bobae (Department of Statistics, Sungkyunkwan University) ;
  • Noh, Jisuk (Department of Statistics, Sungkyunkwan University) ;
  • Baek, Changryong (Department of Statistics, Sungkyunkwan University)
  • 김보배 (성균관대학교 통계학과) ;
  • 노지숙 (성균관대학교 통계학과) ;
  • 백창룡 (성균관대학교 통계학과)
  • Received : 2016.04.14
  • Accepted : 2016.05.30
  • Published : 2016.08.31

Abstract

The composite lognormal-GPD models (LN-GPD) enjoys both merits from log-normality for the body of distribution and GPD for the thick tailedness of the observation. However, in the estimation perspective, LN-GPD model performs poorly due to numerical instability. Therefore, a two-stage procedure, that estimates threshold first then estimates other parameters later, is a natural method to consider. This paper considers five nonparametric threshold estimation methods widely used in extreme value theory and compares their performance in LN-GPD parameter estimation. A simulation study reveals that simultaneous maximum likelihood estimation performs good in threshold estimation, but very poor in tail index estimation. However, the nonparametric method performs good in tail index estimation, but introduced bias in threshold estimation. Our method is illustrated to the service time of an Israel bank call center and shows that the LN-GPD model fits better than LN or GPD model alone.

LN-GPD 합성 분포는 몸통부분은 로그-정규분포를 두터운 꼬리에 대해서는 GPD분포를 따르도록 합성한 분포로 두터운 몸통과 꼬리를 동시에 가지는 자료를 절삭없이 효율적으로 다룰 수 있는 분포이다. 하지만 임계점을 포함하고 있기에 최대우도추정량은 매우 불안정함이 잘 알려져 있어 본 논문이서는 이를 극복하기 위해서 임계점을 먼저 추정하고 나머지 모수들에 대해서 따로 추정하는 2단계 추정 방법들에 대해서 살펴보고 그 성능을 비교해 보았다. 그 결과 동시 추정하는 최대우도추정량의 경우 불안정한 추정이 GPD 분포의 꼬리 지수에서 두드러 졌으며 임계점에 대해서는 비교적 잘 추정함을 알 수 있었다. 이와 반대로 여러 비모수적인 방법들은 꼬리 지수는 만족스럽게 잘 추정하였으나 임계점의 경우 편의가 있음을 관찰할 수 있었다. 실증자료 분석을 위해 2단계 추정법을 이스라엘 은행의 콜센터에서 수집한 서비스 시간에 대한 자료에 적합해 보았으며 그 결과 LN-GPD 합성 분포를 사용하는 것이 로그-정규분포 혹은 GPD 분포 단독으로 사용하는 것보다 자료의 손실도 없이 더 좋은 적합도를 보임을 알 수 있었다.

Keywords

References

  1. Baek, C., Pipiras, V., Wendt, H., and Abry, P. (2009). Second order properties of distribution tails and estimation of tail exponents in random difference equations, Extremes, 12, 361-400. https://doi.org/10.1007/s10687-009-0082-x
  2. Bee, M. (2012). Statistical analysis of the lognormal-Pareto distribution using probability weighted moments and maximum likelihood, Italia in Its Series Department of Economics Working Papers, 1208, 2040-2060.
  3. Cooray, K. and Ananda, M. M. A. (2005). Modeling actuarial data with a composite lognormal-Pareto model, Scandinavian Actuarial Journal, 2005, 321-334. https://doi.org/10.1080/03461230510009763
  4. Drees, H. and Kaufmann, E. (1998). Selecting the optimal sample fraction in univariate extreme value estimation, Stochastic Processes and their Applications, 75, 149-172. https://doi.org/10.1016/S0304-4149(98)00017-9
  5. Gonzalo, J. and Olmo, J. (2004). Which extreme values are really extreme?, Journal of Financial Econometrics, 2, 349-369. https://doi.org/10.1093/jjfinec/nbh014
  6. Hall, P. and Welsh A. H. (1985). Adaptive estimate of parameters of regular variation, Annals of Statistics, 13, 331-341. https://doi.org/10.1214/aos/1176346596
  7. Hill, B. M. (1975). A simple general approach to inference about the tail of a distribution, The Annals of Statistics, 3, 1163-1174. https://doi.org/10.1214/aos/1176343247
  8. Mandelbrot, B. B. (1997). A case against the lognormal distribution. In Fractals and Scaling in Finance (pp. 252-269), Springer, New York.
  9. Nadarajah, S. and Baker, S. S. A. (2014). New composite models for the Danish fire insurance data, Scan-dinavian Actuarial Journal, 2014, 180-187. https://doi.org/10.1080/03461238.2012.695748
  10. Nguyen, T. and Samorodnitsky, G. (2012). Tail inference: where does the tail begin?, Extremes, 15, 437-461. https://doi.org/10.1007/s10687-011-0145-7
  11. Resnick, S. (1987). Extreme Values, Regular Variation and Point Processes, Springer, New York.
  12. Scollnik, D. P. M. (2007). On composite lognormal-Pareto models, Scandinavian Actuarial Journal, 2007, 20-33. https://doi.org/10.1080/03461230601110447
  13. Shen, H. and Brown, L. D. (2006). Non-parametric modelling of time-varying customer service times at a bank call centre, Applied Stochastic Models in Business and Industry, 22, 297-311. https://doi.org/10.1002/asmb.618