「機械学習をめぐる冒険」(著者:小高知宏 発行所:オーム社)という機械学習の入門書を紹介します。何度かこのテーマを取り上げてきましたが、頭を整理するために読んでいきたいと思います。一緒に勉強しませんか?
資料はこちら → 機械学習概論1
p.1 ベン図のような絵が描かれています。 ここで注意しておきたいのはAI(人工知能)≠機械学習ではないことです。
p.2 この本に書かれていることを学習の種類・タスク・アルゴリズムという項目で分類した表です。理解しやすい表だと思います。
p.3 機械学習の流れは、左から右に進みます。データセットを読み込んで学習し、知識として格納します。 顔や指紋認識の画像データは、マトリクスに明るさ色情報のピクセルデータとして格納されます。
p.4 教師ありの場合は、データセットと共に正解データを入力します。xとyの相関であったり正常・不良とその評価をラベルデータとして入力しておき、検査データを評価していきます。教師なしは、データセットのみ入力し、種々の方法を用いて自ら分類して評価していくことになります。 強化学習は、学習データを用いて、その結果を評価して、評価が高くなるように学習していきます。
p.5 データセットを学習データと検査データセットに分割する際に偏りが出ないように、K個に分割する方法を「K分割交差検証法」と呼びます。
p.6 教師なし学習は、後日説明しますが、「自己組織化マップ」を説明します。教師なし学習では、正解を教えられていないので、取っ掛かりとして分類から始めます。その一つの手法です。似た物同士でグルーピングする方法です。ここでは色相で分類しています。 統計ではクラスタ分析や主成分分析が類似しした手法となります。
p.7 「汎化(はんか)」という言葉の説明です。私も初めて知りました。「一を聞いて十を知る」という意味だそうです。学習したデータと全く同じ値になることはないので、学習したデータを用いて予測や推定することになります。分類して回帰、予測する手法をタスクとして実行することになります。 「過学習」になると汎化を妨げることになりますので、防止するために上述のK分割交差検証法等で偏りを無くすことが重要となります。 過学習とは、例えばネコのデータばかり学習させたとします。検査データにイヌがあってもネコと判定することが起きてしまいます。過学習は「学習し過ぎは✖則」も参照してください
p.8 「k近傍法」の事例説明です。大人用自転車と子供用自転車のタイヤの直径と地面からサドルまでの高さのデータが学習データとあった場合、グラフにプロットしてみると、丸で囲んだように分布しますので、子供用と大人用を分類することが可能になります。未知のデータが★だとした場合は、ピンクの近傍にあることから小児用自転車であると推定できます。サポートベクターマシンでは、「点と分離線との距離が最大になるように線を引く」アルゴリズムになっています。 詳細を知りたい方は、以前の「識別式設定の原理」「機械学習を始めます」もご参照ください。
p.9 分類株、決定木、ランダムフォレストの順番に選択枝が増えていきます。ランダムフォレストは複数の決定木を作っておき、多数決で決める方法です。「視点を変えた情報が必要」もご覧ください。
本日はここまで。