分類において良し悪しを判定する指標について説明します。以前の「「あわてもの」と「ぼんやりもの」の誤り」も併せてご覧ください。
資料はこちら → 評価指標その2
p.1 左上表をご覧ください。実際のデータと予測データにおける異常と正常の数がa、b、c及びdであったとします。正解数、適合率、再現率及びF値で評価することができます。算出式を示します。難しい式ではありませんが、分母と分子の適用値が異なります。正解率は実際と予測で正解している割合です。適合率は予測がどれだけ合っているかの割合です。再現率は、どのくらい再現よく予測できているかの指標になります。適合率と再現率はトレードオフの関係にあるため、どちらかの精度を上げると、もう一方の精度が落ちます。この2つのバランスをとる場合はF値を計算します。適合率と再現率の調和平均になります。右上の数字で計算してみました。
p.2 以前説明した偽陽性と偽陰性の分布で説明します。左上表をご覧ください。実際の癌患者数、健常者数、診断による癌患者数と健常者数の数です。下のグラフのように癌患者の分布と健常者の分布が重なっています。水色部が偽陽性、ピンク部が偽陰性です。これらの数字を用いて、正解率、適合率、再現率及びF値を算出してみました。この場合は、全て100%にしたいものです。