トピックス 統計

判定は正しい?

投稿日:

2つの質問で反応をみる」で「信号検出理論」の触りを説明しました。その後、興味を持って調べて、少しわかってきましたので、2回に亘って説明します。「信号検出理論」とは、ノイズに埋もれた信号を統計的に解析する手法ですが、最近では医学分野でも利用されています。今回は「ROC曲線」について述べます。 早速、資料ご覧ください。

資料はこちら → ROC曲線その1

p.1 復習です。「あわてもの と ぼんやりもの の誤り」で説明した資料を再掲します。シグナル癌患者の集団ノイズ健常者の集団とします。癌を患っているかどうかを医者が診断する場合、あわてものの医者健常者なのに癌である(陽性)と判断してしまう「偽陽性」があります。信号の世界では、ノイズなのにシグナルと判断してしまう「誤報(false alarm)」、統計用語では「第1種の過誤」となります。 これに対して、癌患者を正しく判定することを今回は「感度」と呼びます。統計用語では「検出率(1−β)」とも呼びます。 信号の世界では、「正確認(hit)」と呼びます。 ぼんやりな医者は、癌患者なのに、健常者であると診断してしまうかもしれません。これは「偽陰性」でβ、信号用語では「未検出(miss)」と呼びます。統計用語では、「第2種の過誤」と呼びます。 ごちゃごちゃしましたので、整理します。

  • 偽陽性=第1種の過誤=誤報(false alarm)
  • 偽陰性=第2種の過誤=未検出(miss)=β
  • 感度=検出率(1−β)=正確認(hit)

p.2 ノイズの集団の平均値MNと信号の集団の平均値MSの差d’が大きいほど、判定精度が上がりますね。d’分別力と呼び、右上の式で表されます。この式見覚えありませんか? そうです「基準化(標準化)」の式です。母集団(今回はノイズ)の平均値から検定する集団(今回はシグナル)の平均値の偏差を母集団の標準偏差で割って統計量を算出しますが、まさにd’はその統計量なのです。 過去ブログ「同じ土俵に載せる」を参照ください。

p.3 ようやく、本題の「ROC曲線」の説明です。左上の図をご覧ください。 横軸が「偽陽性率」、縦軸を「感度」として、ノイズとシグナルの関係をプロットします。理想は左上の赤丸です。つまり、偽陽性がゼロ感度が1(100%)とは、シグナルノイズ完全に分離して判定できることを意味します。対角線は、シグナルとノイズが一致している状態で、右下の状態です。シグナルとノイズを上下少しずらして描いてありますが、全く一致しています。シグナルとノイズの集団の平均値の偏差d’が大きくなるに従い左上隅に曲線が近づいていきます。 このROC曲線を描いて、判定結果の精度を見積ることが可能なことがわかりますね。

本日は、ここまでです。明日は、ROC曲線の描き方を事例を基にExcel統計ソフト「R」で実行した結果を説明いたします。

 

-トピックス, 統計

Copyright© 進化するガラクタ , 2020 All Rights Reserved Powered by STINGER.