「数字、グラフに騙されるな」という話をします。具体的な数字やグラフで示されると「本当だ」と信じたくなりますね。 直ぐ鵜呑みにせず少し疑った方が、リスクを回避できます。先日紹介した「無料で学べるオンライン大学講座gacco」で講義された「社会人のためのデータサイエンス演習(総務省 統計局監修)」から引用いたします。
資料はこちら → 嘘をつく数字、グラフ
p.2 AとBは同じ集団と言えないのはグラフを見ればわかりますが、統計で使う「平均値」や「標準偏差」を算出すると「平均値:20.0」「標準偏差:8.8」と同じ値になります。グラフを見なければ「有意差なし」「同等」と判断してしまいます。 なので、研修生には、必ずグラフを書くように言っています。
p.3 4つのグラフのようなデータがあり、グラフを描かずにExcel等で近似式を計算すると何れも「y=3+0.5x」という式で一致してしまいます。 この現象を「シンプソンのパラドックス」と呼ぶそうです。 これもグラフを描けば一目瞭然です。
p.4 住宅の着工戸数の年度毎の推移を表した図です。営業マンから左のようなグラフを提示されれば、平成14年度からの実績が大幅に伸びているように見えます。縦軸の原点をゼロにした右図ですと、それほど変化していないようにも見えます。相手が意図して誇張して伝えたいか否かを見極める必要があります。
p.5 以前に「統計クイズ」で紹介した問題を再掲します。Aグループ(1,2,3)とBグループ(101,102,103)はどちらがばらつきが大きいか?という問題で左にある2つのグラフを示します。Aグループの方がばらついているように見えます。 実際は右下の計算結果やその上のグラフのように、ばらつき(分散)は同じなのです。 見せ方によって実際とは異なってしまいます。騙されないように!!
p.6 左上図は、男性と女性の肥満者比率の推移を示しています。 男性と女性の肥満者比率の相関グラフを示したのが右図です。 このグラフを見ると、「男性が太ると、女性が痩せる」というおかしな相関関係を導いてしまいます。 男性は食生活が欧米化して肥満者が増加、女性はダイエットして肥満者が減少している別の要因なのに、一つにまとめると上述のようにおかしな相関関係になってしまいます。
p.7 ある大学でセンター試験結果とTOEICの点数の相関をグラフにしたものが左図、全国のデータが右図となります。ある大学では、同じような成績の学生が集まっているため、相関が認められない結果になっています。データの一部しかみていないと間違った解析をしてしまいます。
p.8 例1のように1個でも外れた値があると相関があるように見えてしまいます。 例2の場合は2つの集団が混合していると相関がないように見えますが、層別に分類してみると相関が現れてきます。
p.9 これもp.8と同じです。休日と平日で分類すると、休日の方が分布が上にあることがわかります。
p.10 外れ値を除外したり、補完値を用いることで「R2(決定係数)」の値が向上します。
p.11 致死率が低くても罹患率が高ければ死に至る確率は高まります。
p.12 結婚願望を男性と女性についてクロス集計表で算出する場合、男性、女性での比率で単純に集計した場合と10代、20代に分けて集計した場合で結果が異なります。
p.13 「高血圧の人は年収が高い」という結論は、「年齢」が「高血圧」と「年収」のどちららにも影響を与えている関係があるために起こります。
p.14 「男性の方が事故が多い」というのは、性別の影響ではなく、「男性の方が走行距離が長い」結果に基づいています。
p.15 貯蓄額の割合を並べたグラフです。平均値は1,798万円となりこの分布のかなり上に位置します。平均値をとると、少数の高額貯蓄額の影響が大きいために起きます。中央値でもまだ金額が大きいきがします。一般庶民と高額所得者の意識の違いはこの辺りからきているのかもしれません。特に政治家は、最頻値の視点で政策を考えないといけないのではないでしょうか?
p.16 いろいろな分布にたいして、平均値、中央値及び最頻値のいずれが代表値として適切かみるべきですね。
以上、物事は可能な限り数値で判断することなく、図やグラフで分布の形状や直線の傾き、傾向を掴むことが大事ですね。また、相関関係については、因果関係の有無を検証する必要があります。