トピックス 統計

平均値の比較

投稿日:

昨日のブログにコメントが寄せられました。その中で「理解が不十分だった点がどんどんとすっきりしていきました!!!」というコメントをいただき、少しは皆さんの役にたてたのかなと思い嬉しくなりました。私自身も統計については、良い本がなく苦労してきましたので、私なりに理解したところを今後も共有していきたいと思います。ガラクタが皆さんの宝になるよう頑張ります。

では、今日の話題です。Minitbを用いて記述統計量算出と一元配置分散分析を実施してみます。今回も配送データを用います。

資料はこちら → 記述統計

p.1 ①統計→基本統計→記述統計量表示の後、②~⑧まで順番に進めると、右下のような基本的な統計量を算出して、種々のグラフを描いてくれます。。

p.2 平均値からのずれを「残渣」として、3種類のグラフが示されています。正規性があるか、外れ値がないか、時間依存性がないかなどを注意してみてください。

p.3 中央、東部及び西部について、平均値とばらつき(分散)を比較する図です。外れ値を判定するには以前説明した「箱ひげ図」は良いですね。外れ値の判定方法は「外れをどう判定するか?」をご覧ください。「Turkeyの同時95%信頼区間」は今回初めてみました。平均値の有意性をチェックするのに用いるようです。気になったので、少し調べてみます。

p.4 Minitabの結果が左図です。東部、中央及び西部センターの配送日数の平均値を各々算出して、その差の95%信頼区間を示しています。5%は間違えてよいとする訳です。この信頼区間は、「Tukey-Kramer法」という統計量を用います。「t検定」に用いる統計量は左下の式です。t検定では2つの群各々の標準偏差を用いますが、今回のTurkey法では、2つの群の誤差の標準偏差を用いる点が異なっています。 この違いの意味するところは、まだ理解できていません。 この統計量は自由度(サンプル数)と信頼度を決めるとt分布表あるいは、Excelであれば「TINV(0.05/2,n1+n2)」で求められます。0.05/2=0.025は、両側合わせて5%間違えても良いという意味です。片側が2.5%(0.025)ですね。この統計量が上側の閾値となります。信頼区間は、不等式のようになります。 この式は「悩ましいサンプリング数の設定」の添付文書中の統計的推定のページにある説明をご覧ください。

p.5 ExcelでこのTurkey法で計算してみました。Minitabは直ぐにグラフを描いてくれますが、Excelは結構面倒です。先ず、3つの群でペアにして一元配置分散分析を実施します。左側に3つ結果を示します。グループ内の分散(赤枠)がσeです。分散=(標準偏差)ですから。2つの群のn数を代入して√の部分(緑枠を計算します。t=2.258(95%信頼度)と掛けた数値が信頼区間幅(青枠)です。 2つの群の差(緑枠)から信頼区間幅を引いた数値が信頼区間下限値(オレンジ枠、足したものが信頼区間上限値(ピンク枠となります。p.4のグラフの数値と一致しているはずです。

p.6 ①統計→分散分析→一元配置の後、②~⑫まで進めてください。

p.7 Minitabの一元配置分散分析結果が左青枠部分です。 Excelの分析ツールで一元配置分散分析を実行した結果が右の青枠内です。数値は一致していますね。ただし、Minitabの赤枠部分は一般的な言葉でなく、統計的には緑字がよく使われています分散=変動÷自由度という関係は覚えておいてください。分散分析の説明は「実験の効果を判定するには」をご覧ください。

今回使用したExcelファイルはこちら → 配送データ

今回また、新たな知見を得ることができました。

-トピックス, 統計

Copyright© 進化するガラクタ , 2020 All Rights Reserved Powered by STINGER.