泥臭く手作業で知ろう、アルゴリズム

投稿日：2019年11月21日

Ｑ学習をExcelで実行します。Excelファイルの「Q学習」というシートとパワーポイントの資料を見ながら構成を追ってみてください。昨日のExcel関数が大活躍します。

説明資料　→　Ｑ学習その3

Excelファイル　→　Q学習

p.1　左上で割引率γ＝0.7、学習率α＝0.5、各状態での報酬は−１に固定しています。　報酬があるとなかなか正解にたどり着かないので−１にしてあります。greedy率εは１−（エピソード数）/50のようにエピソードが増えると共に減少していきます。　エピソードは１から50まであり、１つのエピソードにステップ１～１０まで繰り返します。エピソード１のステップ１のQ値（赤枠内）の値は適当な値が入っています。

p.2　どのエピソードもステップ１の最初は、１行1列のマス目（巣）の位置からスタートします。乱数を発生させてεより小さければ冒険、多きればQ値が高い方向を選びます。ここでは、冒険を選んで下方向に移動します。このマス目の情報と新たにQ値を計算し直した表の値をステップ２にコピーします。このコピーに昨日の「配列数式」を用いています。

p.3　エピソード１のステップ１０のQ値をエピソード２にコピーして、1行１列からステップ１としてスタートします。

p.4　エピソード５０まで実施して得られるQ値をマス目に入れてあります。数値が多い方向に蟻が進んでゴールに到着します。

p.5　横軸がエピソード数、縦軸がゴールに到達したステップ数です。最短の場合がステップ５です。最初は９ステップでゴールに到達していましたが、徐々に到達確率が高くなっていくことがわかります。47くらい繰り返すと間違えなくなるようです。　蟻がたくさんいれば、あっという間にゴールしてしまうのでしょうね。

いかがでしたか？　python等の言語を使えばもっと効率の良い計算やプログラムも簡略化されるのでしょうが、プログラムの中身やアルゴリズムを知るためには、今回のように泥臭く手作業で実行してみることが良いと思います。