「統計学も進化?」で多重検定の話をしました。有意差検定において、p値ありきでデータ取りしたり解析することを「p値ハッキング」と呼び、統計の専門家の中では問題になっています。検証される側も検証する側の方も、p値だけで判断しないようにしましょう。種々の視点でデータを観る必要があります。ヒストグラムを並べて描いて観るだけでも、ある程度わかります。
資料をご覧ください → p値ハッキング
「p値ハッキング」は表のように、いろいろ種類がありますが、p値が0.05以下になるようにして「有意差」があるように操作することを示しています。検定回数nを増やすと、第1種の過誤の発生確率がグラフのように増加していきます。帰無仮説が正しいのに棄却する確率αが0.05(5%)を超えるようになってしまいます。つまり、有意差ありという結論に導いてしまうことになるのです。アメリカ統計協会は、以下の声明を出しています。以下に要約しておきます。
アメリカ統計協会のp値に関する声明 → https://www.biometrics.gr.jp/news/all/ASA.pdf
- p値はデータと特定の統計モデル(仮説もこの統計モデルに含まれる)が矛盾する程度を示す指標のひとつである。
- 科学的な結論や、ビジネス、政策における決定は、P値がある値(有意水準)を超えたかどうかにのみ基づくべきではない。
- 適正な推測のためには、すべてを報告する透明性が必要である。
- p値と関連した解析は選択して報告すべきではない。複数のデータ解析を実施して、そのうち特定のp値のみ(たいていは有意水準を下回った)を報告することは、報告されたP値を根本的に解釈不能としてしまう。
- 見込みのありそうな結果をいいとこ取り(―データのどぶさらい、有意症、有意クエスト、選択的推論、P値ハッキングとも呼ばれる―)すると、出版された論文に統計的に有意な結果が誤って過剰に報告されるため、厳に避けなければならない。