本日は「分散分析」の話です。これまでは1つあるいは2つの分布についての比較を検定してきました。 今回の分散分析はどの場合に使用するかというと、実験条件の効果があったかなかったかを3つ以上で比較する場合に使用します。1つの因子の効果を見る場合は「一元配置分散分析」、2つの因子の効果を見るのが「二元配置分散分析」と言います。
資料参照ください。 → 分散分析
p.2 「平方和」と「分散」の式は覚えていますね。分散分析で活躍します。分散の平方根が「標準偏差」でしたね。
p.3 分散分析は「因子の効果」と「誤差(偶然)」のばらつきの比を「F検定」で判定するのです。「F検定」は昨日のブログの説明資料参照。左下の図をご覧ください。因子Aのデータは水色の範囲でばらついています。因子Bのデータはピンク色の範囲にあります。各々のデータの平均値が青とピンクの線で、全てのデータの平均値(オレンジ色)との差が因子Aと因子Bの「効果」になります。1つ1つのデータは右図のように、「平均値+効果+誤差」で表されます。
p.4 事例1です。肥料A~Dを使用した際の収穫量が各々8個ずつあります。上の表は生データとグラフにプロットしたものです。グラフ内の赤線は全てのデータの平均値です。下の表は、偏差=各データ-全平均を計算した表とそのグラフです。平均値が0になっています。この縦軸が「効果の程度」を示しています。
p.5 上の表は4つの肥料の収穫量の平均値を計算しています。 中の表は、その平均値から全平均値を差引いた値(肥料間偏差)とその平方和です。グラフは肥料間偏差です。下の表は、肥料内のばらつき=(各肥料データ)ー(各肥料データの平均)とその平方和です。グラフは肥料内のばらつきを示しています。
p.6 上述で計算した「肥料間偏差」の平方和と「肥料内のばらつき」の平方和をまとめた表です。「分散」はp.2の式では「平方和」をnで除しています。このnは通常個数を表しますが、ここでは自由度になります。「肥料間偏差」の自由度は、肥料が4種類ですので1をマイナスして3になります。4つの肥料の内3つのデータと平均値1つがわかれば残りのデータは推定できるので自由度は3(=4-1)とします。 「肥料内ばらつき」は各々8個のデータなのでその内の7(=8-1)が決まれば残り1つが決まります。それが4種類ということで自由度は28(=7×4)とします。各々の平方和を自由度で除した分散の比を求めるとF=3.19となります。0.05の有意差検定をすると閾値は、F分布表より2.95となり、統計量のF値3.19はこれより大きいため、棄却されます。つまり肥料間の有意差はないとは言えない。つまり肥料の違い(効果)は認められることになります。Excelの分析ツールの「繰り返しのある一元配置分散分析」を用いた結果が左下の下表です。 上述と同様な結果となります。 Excelや他の分析ソフトを使えば答えは直ぐ出てきますが、実際の原理やグラフに書いてイメージして欲しいのです。 右下の棒グラフが、平方和の「加法性」を示しています。
p.7 事例2は、A、B及びCラーメンの味について20名に100点満点で評価してもらった結果です。右図のような分布になっています。帰無仮説は「3つのラーメン店の味に差がない」です。
p.8 分布図に各ラーメン店の平均値、全体の平均を示しています。例えば、グラフの左端のデータ(●)についてみると、B店の平均値79.5からのズレ(郡内のズレ)と全体平均83.88からB店の平均までのズレ(群間のズレ)を足したものが全体の平均からのズレとなります。 全てのデータについて平方和を計算する下の式が成り立ちます。郡内の平方和が誤差、群間の平方和が効果を表しているのです。
p.9 p.7のデータと各々の平均値をグラフにしました。これを見ると効果があるのかがある程度イメージできると思います。
p.10 事例1と同様に郡内、群間の平方和を算出して自由度で割り分散を求めます。 群間の自由度は2(=3-1)、郡内の自由度は57(=(20-1)×3)。F値は、効果の分散を誤差の分散で除して12.22。5%(0.05)の有意水準の閾値は3.16となり、F値はこの値より大きいので、帰無仮説は棄却され、評価結果に有意差はあるとなります。
p.11 繰り返しのない二元配置分散分析の事例です。 肥料と温度の2因子について効果を見ます。 肥料毎、温度毎の平均値を算出します(上の表)。次に、温度の効果=温度水準平均ー全平均 を算出します。そのグラフが右です。
p.12 肥料の効果=肥料の水準平均ー全平均で算出します。グラフは肥料の効果を示しています。
p.13 誤差=データの偏差(各データー全平均)-(肥料の効果)-(温度の効果)で算出します。温度効果、肥料効果及び誤差の平方を算出し、Excelで二元配置分散分析を実施します。
p.14 温度効果と誤差の分散比は3.01で閾値5.14より小さく、肥料効果と誤差の分散比は7.74で4.76より大きい。温度効果はあるとはいえず、肥料効果はあるとい結果になりました。
p.15 平方和を加算した棒グラフを見れば、温度効果はなく肥料効果が大きいことが明らかです。
p.16 繰り返しのある二元配置分散分析の事例です。今回は、喜多方と札幌、味噌味と醤油味の4種類について15名に評価する例です。2変数なので二元配置ですね。
p.17 要因1が地域、要因2が味です。交互作用の平方和=郡内のズレの平方和ー地域のズレ平方和ー味のズレの平方和 で算出します。 残差に対する地域、味及び交互作用の平方和の比(F値)を算出し、閾値4.01と比較します。地域、味に関しては棄却されず有意差がないことがわかります。交互作用による点数の差はある結果になりました。
p.18 喜多方と札幌について、味噌味と醤油味の得点の平均値をプロットしたものが左下の図です。右の4つのグラフの2つの直線が平行の場合は、交互作用なし、交差の場合は交互作用ありとします。 札幌ラーメンの方が喜多方よりも味に関わらず得点が高い場合あるいは低い場合は交互作用なしです。今回の場合は、味噌味は喜多方、醤油味は札幌が良いということなので、交互作用ありとなります。
資料に使用したExcelファイルはこちら → 分散分析
資料と併用すると理解が深まります。