昨日の「Q学習」の続きです。資料ご覧ください。
資料 → Q学習その2
p.1 昨日の復習です。
p.2 昨日のQ値はフェロモンやクッキーの可能性が高いと大きな数値になりますが、これを頼りに進むと迷路にはまったり、同じところをぐるぐる回って目的地にたどり着けないことが起きます。そこで「修正ε-greedy法」という方法を適用させます。修正というのは、εをエピソードに応じて変化させることを意味します。εは冒険度です。1に近いほど冒険する率が高く、0に近いほど冒険をせずにQ値に従って進みます。 エピソードの最初は冒険をして、段々目的地にたどり着く可能性が高くなると冒険せず堅実に進みます。その方が成功率が高いようです。
最初は当たり付けをして、様子がわかってきたら精度を上げていくのと同じ考え方ですね。