「ROC曲線の描き方」を先週「理屈がわかったら即実行」で説明しました。この図の最適解をどのように評価すればよいか?について説明します。 資料をご覧ください。
資料はこちら → ROC曲線その3
p.1 理想に対してROC曲線下の面積(AUC:Area Under Curve)が最大になる条件やROC曲線上で理想に最短距離となるカットオフポイントを求めることができれば、評価がより定量的になります。
p.2 これも統計ソフト「R」にある「Epi」というパッケージをインストールするで簡単に求めることが可能です。①「R」を立ち上げて赤字の部分を入力すると、例によってミラーサイトのリストが右に表示されるので、②Japanを選択してOKをクリックするとインストールが開始します。
p.3 ③「R」を起動後、赤字のコマンドを入力してください。データは先週使用した「ファイル名:roc_data2.tx」です。④実行すると、直ぐグラフが現れます。理想から最短のカットオフポイントが19であること、特異度が71.4%、つまり偽陽性が100-71.4=28.6%であることがわかります。
3回にわたってROC曲線の説明をしてきましたが、ノイズとシグナルが混ざった情報からシグナルを取り出す際の信頼性を評価する手法をご理解いただけたでしょうか? 統計的検定と類似した考え方ですが、判定の閾値を設定できる観点から有用であると思います。