先週まで、正規分布やt分布のようなパラメトリックな統計を扱ってきました。今週からは、ノンパラメトリックな統計手法を扱います。
資料をご覧ください。 → χ2検定
p.1 ノンパラメトリック検定は、正規分布かどうかわからない場合、N数が少ない場合あるいは計数値や度数の場合に用いる手法です。計数値とは、人数や不良数などのように不連続な数値で表すものです。計量値は長さや重さのように計測される数値ですね。
p.2 ノンパラメトリック検定の手法は種々ありますが、本日はχ(カイ)2乗検定について説明します。カテゴリーデータや度数分布データを扱います。集計表のデータを用いて、そのカテゴリーの適合度や独立性を検定します。また、母分散の検定や2つの分布の等分散性を検定します。
p.3 右図はχ(カイ)2乗分布図です。例えば正規分布の縦軸を2乗すると、このような分布になりますね。 ①適合度や独立性を検定する場合、「こうなるはず」という期待度からどれだけズレているか偏差の平方を期待度で割った統計量を算出して検定します。②母分散を検定する場合は、統計量T=(標本サイズ×標本分散)/母分散を算出します。
p.4、5 適合度検定の事例です。問題文をお読みください。特定の政党を支持しているかどうかの適合度を検定します。帰無仮説は、どの政党も支持率が等しいとします。各政党は0.25ずつ分け合うとすると50人×0.25=12.5人が期待度数になります。実際の人数から期待度数を引いた偏差の平方和を期待度数で割って統計量T=10を求めます。有意水準0.05の時の閾値は、p.5のχ(カイ)2乗分布表において、政党が4種類なので自由度f=4-1=3のラインで0.05の列の交わった場所の数値7.81473となります。統計量T=10>7.81473なので、帰無仮説か棄却され特定の政党を支持していると判断できます。 Excel関数「CHIINV(確率,自由度)」を用いて閾値を求めます。
p.6 Minitabでの実施手順です。①統計→表→カイ二乗適合度検定進んでいくと、右図のグラフと下の実行結果が得られます。赤枠内のp値が0.05より小さいので帰無仮説(各政党の支持率は等しい)は棄却されます。
p.7,8 問題分の中にクロス集計表があります。この問題は、支持政党と性別が独立しているかいないかを検定します。独立性の検定事例です。期待度の確率より期待度数を求め、p.4と同様に統計量Tを算出します。閾値は、自由度が2となりますので、p.7の分布表を求めます。この場合も帰無仮説は棄却され、独立性はないと判定されます。
p.9 Minitabの実行例です。p.6と同様です。この場合は、クロス集計およびカイ二乗を選択するところが異なるだけです。
p.10、11 この問題もクロス集計表における独立性の検定で、方法はp.7と全く同様です。自由度が1になりますので、閾値がp.11から求められます。
p.12 Minitabの実施例で、p.9と全く同じ手順です。
いかがでしたか? χ(カイ)2乗を用いた検定事例でした。 データ数が少なく、カテゴリー分類された問題に利用される手法として用いてください。