意思決定や戦略を決定するためのツールである「決定木」について説明します。「Decision tree」の方が聞き覚えがあるかもしれません。この手法は機械学習のツールとしても利用されています。資料をご覧ください。
資料はこちら →決定木
p.1 左上の表をご覧ください。パラメータは、天気・風速・湿度の3つで、アクションは遠足を決行するがYes、中止がNoです。決定木は、質問に答えながら木(ツリー)を降りて来ます。右上は、最初の質問が「天気は何ですか?」から始まります。選択肢は、「晴れ、曇り、雨」です。雨を選ぶと、Noなので遠足は中止です。晴れと曇りの場合は、次の質問「風速は?」「湿度は?」で分類されていきます。これで5つのパターンの何れかに決定されます。 左下をご覧ください。今度は最初の質問が「風速は?」から始まります。右下は、「湿度は?」から始まります。 一番少ない質問で決定するのが最適解になります。この3つを比較すると、どれが最適解だと思いますか? 左下がよさそうですね。右下は、湿度が高い方について次の質問ができないため、これ以上場合分けができません。
p.2 上述の最適解を数値化できればいいですね。 そこで、「平均情報量(エントロピー)」という概念を定義します。 YesとNoにある個数を各々m個とn個おきます。Yesが4個、Noが0個あるいはその逆の場合は、分離が良いですね。Yesが3個、Noが1個あるいはその逆の場合はまあまあ分離できています。YesとNo何れも2個ずつの場合は、分離不十分ですね。これを定義式で計算したものがIの行の数値です。分離良好がI=0、不十分がI=1で、その間の数値の場合は分離が中間的場合です。 一番下に、因子が複数の場合の一般式を書いておきます。
p.3 最初の質問のどれが最適かについて数値化する方法を表にしてみました。各々質問によって分類された場合のYesとNoの数を求め、Iの値を計算します。場合分け比率を計算してIの値を掛けてその和を計算します。 最初の状態のIを計算します。Yesが2個、Noが3個はいずれの場合も同じI=0.972と計算されます。この値と3つの場合の計算結果の差をゲイン(利得)として計算します。天気及び湿度が0.172、風速が0.423となることより、風速が最初の質問として最適であることがわかります。
p.4 風速が最初の質問として最適なのかどうかを確かめます。最初の天気の質問をする場合と、風速の質問後天気の質問をする場合について、p.3と同様にゲインを算出します。後者の場合、最初の状態は風速の質問をした後の状態にします。つまり風速が弱い状態です。同じ天気に関する質問のゲインを比較すると、最初の天気の質問する場合のゲインは0.172しかないですが、風速の質問後の天気の質問のゲインは0.918もあります。 p.1で左下、つまり最初に風速の質問をするのが最適解であることを数値で定量的に評価できました。 このように数値で評価できるということは機械学習やAIでも利用可能だということになります。