10か月ぐらい前に「ROC曲線」を「判定は正しい?」「理屈がわかったら即実行」「評価の仕上げ」で取り上げました。今回、追加説明の資料を作成しました。
資料をご覧ください → ROCその4
p.1 過去に何度も登場する図ですが、「真陰性」(正しく陰性と判断しているI、「真陽性」(正しく陽性と判断している)語句を追加しました。検出力は真陽性率と同じ意味です。ガン患者をガンであると正しく検出する力を検出力としています。
p.2 ROC曲線は、横軸を偽陽性率、縦軸を真陽性率として描きます。前回、横軸は偽陽性率で縦軸は感度としていました。感度は検出力と同じとしていました。つまり、感度、検出力あるいは真陽性率いずれでも同じ意味になります。 今日、お伝えしたいのは、左の分布図です。青い分布は健常人、赤い分布はガン患者の分布を示しています。分布が重なっている部分は判断を間違い易い部分になります。統計的検定を行う場合に、棄却の閾値を設定します。6つの図の左上は閾値が最も左にある場合です。閾値の左は正常であると正しく判断しており、閾値の右側はガン患者と判断する偽陽性になります。赤い分布は全てガンと判断しているので、真陽性となります。同様に、右に閾値の位置を変えた場合の人数を数値で示しています。青色は真陰性、緑色が偽陽性、ピンクが偽陰性、赤が真陽性です。右下の閾値が一番右に位置します。偽陽性率=偽陽性/(真陰性+偽陽性)、真陽性率=真陽性/(偽陰性+真陽性)で計算した結果をExcelの表で示します。 この結果を基にROC曲線を描いたものが右上図です。
p.4 健常人とガン患者の分布が完全に分離できている場合、閾値の位置は正方形の上辺と左辺の●の位置になります。健常人とガン患者の分離が困難な場合が右図の三角形の斜辺上の点になります。通常は、正方形と三角形の中間の形状となります。
ROC曲線を閾値の観点でイメージ化した説明でした。