予告したように「サンプルサイズの決め方」(著者:永田 靖 発行所:朝倉書店)の一部を私なりに解釈して説明いたします。 このようなタイトル本はなかなか探しても見つからず、見つかっても理解するのに骨が折れます。 本来は、「統計的検定」について少し予備知識があった方がよいのですが、後日また説明することにします。 一度難しいことをやった後に簡単な方をやると、なんだそんなことだったのかということもありますので、今回はまず我慢して眺めてください。
資料はこちら → 品質・技術者に必要な統計手法②-2
p.2 いきなり訳の分からない語句が入って表です。次の絵(p.3)を見ながら見返してください。ここでは、誤った判定として「第1種の過誤」と「第2種の過誤」の2つがあることを覚えておいてください。 通常、対立仮説が正しいことを言いたいときに、その反対の事象を「帰無仮説」としておいて棄却して、対立仮説に導くということを「検定」の常套手段として実施します。「帰無」とは「無に帰する」という意味で、仮説を無かったことにしたいのです。 今回は、「癌でない集団(青の分布)(9,980人)」を「帰無仮説」、「癌である集団(赤の分布)(20人)」を「対立仮説」とします。何れも、これが「真実」です。
p.3 表と図の水色の部分が、癌でないのに「癌である(陽性)と誤診」された人数で1,497人です。 これを「第1種の過誤」と呼び、αの確率で起きるのでアルファの「あ」で思い出すように「あわてもの誤り」とか「あわてて棄却」と言います。
次は、ピンク色の部分です。癌であるのに「癌でない(陰性)と誤診」された人数で4人となります。これを「第2種の過誤」と呼び。βの確率で起きるのでベータの「べ」に紐づけて「ぼんやりものの誤り」とか「ぼんやりして見逃し」と言います。「1-β」を「検出率」と言って、「癌を陽性」と正しく診断する確率を示しています。
水色とピンクの境目にある赤線が「棄却の閾値」で、「癌でないこと」を間違えても良い確率α(水色の面積)を小さくするとこの赤線はより右側になります。そうすると、ピンク色の面積が増え、癌であるのに陰性と診断する確率βが増加して、検出力も落ちてしまいます。 ここまで理解していただくと、あとの説明が容易になります。
p.4 母集団A(癌でない集団)と母集団B(癌である集団)から、サンプリングした標本の分布は上から2番目のように標準偏差は、母集団の√n分の1と狭くなります。
p.5 Excelの関数を示しました。第1種の過誤の確率αを5%(つまりα=0.05)ということは、この閾値より左側の確率は100-5=95%(つまり1-α=1-0.05)となり、これを代入するとNORMSINV(1-0.005)=1.645が算出されます。これが閾値です。 閾値1.645より小さい分布の確率はNORMSDIST(1.645)=0.95で算出できます。
p.6 母集団Aの平均値:0 、標準偏差σ:1 、母集団Bの平均値:0.6 、標準偏差σ:1した場合が上の図です。 5%の確率で母集団Aでないと棄却(間違える)する閾値は1.645(赤線)です。 母集団A及びBから9個ずつサンプリングした標本の分布は下の図のようになります。母集団と標本の分布の平均値は変わらないとします。標準偏差を√9で割り標準誤差SEとなります。1.645の閾値も同様に√9で割り0.548となります。第1種の過誤、第2種の過誤及び検出力を色分けしました。
p.7 母集団Bが母集団Aの上あるいは下側にある場合のイメージ図です。
p.8 以下、Bの母集団がAの上側にある場合について説明します。一番上の図は、母集団の分布図です。この母集団より、n=3、n=9、n=25とサンプリングした標本の分布及び閾値を示します。サンプリング数を増やすと第2種の過誤(ピンク色)が減少して検出力(緑の面積)が増加します。サンプリング数nが増えると、母集団AとBが違う集団であることが明らかになってきます。
p.9 母集団Bの平均値がAよりも右方向に離れていくと検出力(緑色)の面積は増加、つまり検出力は向上します。当然ですが。
p.10 横軸が2つの母集団の平均値の差を標準偏差で割った数値、縦軸を検出力として描いた曲線です。平均値が離れるほど、サンプリング数が増えるほど検出力が増加することがわかります。
以降のページは、この検定で母集団AとBが異なる集団であることを検出するために必要なサンプリング数を決める原理を、私が解釈して書きました。興味のある方はお読みください。①母集団からn個サンプリングした標本では、標準偏差もαの閾値も√nで割った数値になる ②母集団Bの平均値がAよりΔμずれているので、αの閾値の位置はその分(Δμ*√3)だけ左に差し引いた位置になります)。母集団Bの平均値を0に移動して、αの閾値が母集団Bのどこにあるかを求めます。
p.11 実際の母集団が一番上の図です。n=3サンプリングした分布が下の図。n=3で分布図は描けないと言われるかもしれませんが、説明のためご容赦ください、母集団Aからサンプリングした標本Aの閾値が0.950=NORMSINV(1-0.08)/√3より大きい標本Bの確率を求めます。標本B0.6の平均値はAより0.6大きいため、母集団Bの平均値を0に移動したものが真中の図です。この図でβと1-βの間の閾値を計算します。NORMSINV(1-0.05)-Δμ*√3のΔμに0.6を代入して、閾値0.606が得られます。β=NORMSDIST(0.606)で求められます。
p.12 母集団Aの第1種の過誤が5%、母集団Bの第2種の過誤が10%、検出力が90%、母集団AとBの平均値の差Δμが1、母集団BがAの右側にある場合を考えます。母集団からn個サンプリングした標本の図が下の図です。第1種の過誤(グレー)と第2種の過誤(ピンク)の和がΔμ=1に等しいとして計算するとサンプル数nが計算できます。片側でn=9となります。Excelの電子ファイルを添付します。「基」のシートの黄色の網掛にα、β及びΔの数値を入れるとサンプル数nが計算できます。
Excelファイルはこちら → サンプルサイズ(修正)
いかがでしたか? 2つの集団が近接している場合は、第1及び2種の過誤があることを認識ください。サンプル数はケースバイケースで決めてください。