統計を敬遠する方あるいはこれから理解しようと思っている方に、一番最初に理解して欲しいことがあります。「ばらつき」をどう表現するか? どう数値化するか? です。
資料をご覧ください。 → ばらつき
p.1 おもりがぶら下がった天秤で説明します。つり合いが取れる「重心」からの距離を求めます。左側のおもりまでの距離にはマイナスを付けます。AとBの天秤について、距離の和を算出して平均値を求めます。 いずれもゼロになってしまい、「ばらつき」を表すことができません。
p.2 では、距離の2乗の和を算出して平均値を求めてみます。Aは7.5、Bは2.5となります。 「ばらつき」が大きいAの数値が大きく、「ばらつき」を数値化できそうなことがわかります。
p.3 「ばらつき」は重心からの距離の二乗がよさそうですが、絶対値の和は使えないのでしょうか? 以前のブログで示した「マンハッタン距離」のことです。
p.4 BとCの天秤について、重心からおもりまでの距離を絶対値にして和を算出して平均値を算出します。BもCも同じ値になってしまいます。絶対値はダメそうです。
p.5 Cについても、距離の2乗の和の平均を求めると3.0となり、Bよりやや「ばらつき」が大きいことがわかります。 天秤A,B及びCの中ではAが一番「ばらつき」が大きいことを数値でも示すことができました。 「標準偏差σ」は「分散V」の平方根で、これでも「ばらつき」の順番は変わりません。ではなぜ平方根にするか? これは単位の次元を基に戻すためです。次のページ参照ください。
p.6 平均体重:60kg、標準偏差σ:10㎏の正規分布はこのグラフのようになります。変曲点のところが標準偏差σですね。分散Vのままでは、100kg2となってしまい、グラフも描き難いので、元データの単位に戻すために平方根にします。