Abstract
The chi-squared test statistic is usually employed for testing independence of two categorical variables in a two-way contingency table. It is well known that, under independence, the test statistic has an asymptotic chi-squared distribution under multinomial or product-multinomial models. For the case where both margins fixed, the sampling model of the contingency table is a multiple hypergeometric distribution and the chi-squared test statistic follows the same limiting distribution. In this paper, we study the difference between the small sample and large sample distributions of the chi-squared test statistic for the case with fixed margins. For a few small sample cases, the exact small sample distribution of the test statistic is directly computed. For a few large sample sizes, the small sample distribution of the statistic is generated via a Monte Carlo algorithm, and then is compared with the large sample distribution via chi-squared probability plots and Kolmogorov-Smirnov tests.
이원분할표의 두 범주형 변수에 대한 독립성을 검정할 때 흔히 카이제곱 검정통계량이 사용된다. 표본추출 모형이 다항이나 곱다항인 경우 이 검정통계량이 독립성 가정하에서 근사적으로 카이제곱 분포를 따르게 되는 것은 잘 알려진 사실이다. 두 주변값이 모두 주어진 경우 독립성 가정하에서 표본추출 모형은 다중 초기하분포가 되며 앞의 모형과 마찬가지로 카이제곱 통계량에 근거한 검정을 사용할 수 있다. 이 연구에서는 주변값이 주어진 경우에 카이제곱 통계량의 소표본 분포를 대표본 분포인 카이제곱 분포와 비교하고자 한다. 표본크기가 작은 몇 개의 경우에 대해 카이제곱 통계량의 소표본 분포를 직접 계산해보았다. 표본크기가 큰 몇 개의 경우는 간단한 몬테칼로 알고리듬을 통해 소표본 분포를 생성하고 카이제곱 확률도와 콜모고로브-스미노브 단일표본 검정을 이용하여 대표본 분포와의 일치성을 알아보았다.