ROC曲線については、過去に4回も取り上げていました。「分布の重なり具合とROC曲線の関係」でも説明しましたが、もう少し整理しておきます。ROC曲線を診断精度を上げるため用いられますが、診断を予測に置き換えると、得られたデータを基にAI等でしきい値を変化させて最良の診断を予測することが可能になるのではないかと思われます。
資料はこちら → ROC曲線その5
p.1 癌の陰性・陽性の一覧表と分布の重なりを示しています。これも、何度も示してきました。「「あわてもの」と「ぼんやりもの」の誤り」をご覧ください。 癌でない健常者の分布が青線、癌患者が赤の分布です。健常者のうち陰性の診断者は「真陰性」、陽性診断が「偽陽性」です。癌患者のうち、陰性診断者が「偽陰性」、陽性診断者が「真陽性」となります。偽陽性率と真陽性率を式で表しています。 今後は「予測」にも利用されると思います。
p.2 分布の重なりとしきい値の違いにより、偽陽性率と真陽性率が変化します。
p.3 前ページの2つの状態について、横軸を偽陽性率、縦軸を真陽性率としてプロットしたものが右グラフです。●を結んだものがROC曲線(Receiver Operatorating Characteristic)と呼ばれ、ROC曲線の下側の面積をAUC(Area Under the Curve)と呼び曲線下面積が最大になるのがベストです。理想は、左上の角です。
p.4 陰性と陽性が完全に分離している場合にしきい値の位置によって診断結果変わることを示しています。この場合、偽陽性は出現しませんが、偽陰性は出現する可能性があります。
p.5 陰性と陽性が完全に分離している場合に、偽陰性は生じないが、しきい値により偽陽性が生じる場合があります。
p.6 偽陽性率が0、真陽性率が0の場合の分布としきい値の位置を示しています。理想は、右から2つ目の分布でしきい値が分布の間に位置しています。陰性・陽性が分離されている場合は、しきい値を変化させて理想に近い診断が可能になると考えます。AIであれば、AUCが最大になるしきい値を求めることは容易だと思います。
p.7 完全に分離している場合が左図。 分布が重なって、分離が困難な場合が右図です。 ●の点のしきい値の位置をご覧ください。
今回、整理し直してみました。図を描いてみると、だんだんわかってきます。