データサイエンス トピックス 統計

バイアスに騙されるな

投稿日:

噓をつく数字、グラフ」で取り上げましたが、解析した結果を間違って解釈することがあります。次の資料をご覧ください。

資料はこちら → 散布図

p.1 100人分の国語理科得点散布図にプロットしたのが右上のグラフです。相関は認められません。次に、国語と理科の合計点数の平均値以上を合格として、合格者の国語と理科の得点を散布図にしたものが、右下のグラフです。国語の点数が高い人は理科の点数が低く理科の点数が高い人は国語の点数が低いという相関があるように見えませんか? 近似直線を描くと右肩下がりの直線になります。世間では「理系と文系」という括りで、上述のような相関があるとよく言われていますが、本当でしょうか?

p.2 右上が、国語と理科の合計点についてヒストグラムを描き、右下合格した人の国語と理科の得点のヒストグラムです。平均値付近の人数が突出して多いことがわかります。合格者のヒストグラムは全体的にやや右側にシフトしていますが、70~80点付近の人数が多いことがわかります。 にもかかわらず、合格者の散布図を見ると右肩下がりの相関があるように見えてしまいます。「理系と文系」のバイアスがあるためかもしれません。合格点に近い人数が対角線上に多く存在するために、右肩下がりの傾向として読み取ってしまいます。また、合格者という条件が加わったことも、見方を変えてしまっています。データを解析する際は、注意が必要ですね。今回はヒストグラムを用いましたが、別の解析手法も併用することをお勧めします。

-データサイエンス, トピックス, 統計

Copyright© 進化するガラクタ , 2025 All Rights Reserved Powered by STINGER.