「データマイニング」や「機械学習」に「ロジスティック回帰分析」という言葉が登場します。本日は、この話題について一緒に学びましょう。実は、この「ロジスティック曲線」は「複数の情報から判断するシステム」の資料の中で活性化関数「シグモイド関数」として既に登場していました。この関数は「二値化」のように0か1かのように判定するような場合に使用されます。現在、理解したところまでの資料を作成しました。
資料はこちら → ロジスティック回帰分析その1
p.1 縦軸が目的変数の確率pで横軸が説明変数xの関数です。S字カーブの形をしています。例えばpが0.5以上を1、0.5未満を0とみなすような判定にすることも可能です。当然、確率0.5付近の判定精度は落ちます。
p.2 今まで説明してきた多くの回帰式は直線で、最小二乗法で係数を求めてきました。 今回はp.1のように目的変数pが0か1の場合、説明変数xのロジスティック曲線の係数を算出します。これを「ロジスティック回帰分析」と呼びます。2番目に書いてある式の係数を算出します。係数の算出方法は、一番目の式の係数を最小二乗法で求める方法と「最尤法」という手法で求める2通りがあります。 今回は「最尤法」を用いてみます。 今回「オッズ比」という概念も登場します。この「最尤法」と「オッズ比」については、次回以降説明します。まだ、理解が十分できていません。
p.3 事例を2件紹介します。目的変数が動脈硬化の有り無しで、無しが0、有が1と数値化します。 説明変数は動脈硬化の原因で、脂質異常の状態を0,1及び2で表しています。この他、性別と年齢も説明変数としてあります。定数項は1としておきます。これらのデータを基に係数を求めたロジスティック曲線の式が右の中央付近にあり、そのグラフが右下です。オレンジ色の●が表の目的変数をeyのyに対してプロットしたもの、青●及び青の曲線がロジスティック曲線です。動脈硬化である確率pが縦軸ですので、右に行くほど動脈硬化である可能性が高いことになります。
p.4 喫煙本数と飲酒日数が不健康の有り無しの判定にどのように影響を与えるかのロジスティック曲線を求める問題です。p.3と同様の式とグラフを描いておきました。 このロジスティック曲線を求めておくと説明変数のデータを基に目的変数を推定することが可能です。縦軸の確率を見れば信頼度も読み取ることができそうです。
明日はExcelを用いて「最尤法」で係数を求める方法を説明します。