研修やブログで「境界を見極める実験が大事」という話を何度も伝えてきました。多くの技術者は、目標の特性値になる中央値あるいは平均値のデータを多く取得しがちですが、大事なのは境界領域の特性値です。境界値を知ることの情報量は、中央値よりも大きいのです。つまりデザインスペースの拡がりを把握しておく必要があるのです。 先日、「トコトンやさしい画像認識の本」(著者:笠原亮介 発行所:日刊工業新聞社)を読んでいたら、同様のことが書かれていました。
資料はこちら → 画像認識その3
p.1 左図が以前示した図で、右上図が画像認識の本に書かれていた図です。正しく認識するためには、画像認識においても境界値の把握は重要です。右下の2つの図は教師ありと教師なしで未知のサンプルが良品か不良品化を判定するイメージ図です。上述の本の図とは変えています。事前に良品と不良品の画像データを取得して境界を求めるのが教師あり(左図)です。右図は不良が少ない工程の画像データを都度蓄積している教師なしの場合です。未知のサンプルについて、良品・不良品かについて判定した場合、教師ありは良品と、教師なしは不良品と判定することがあります。教師ありは、事前学習のサンプル数が少ないと間違った判定を示すことがあります。不良が少ない工程では、通常のパターンからズレたものを不良にすることが可能になります。 いつもこの通りになるとは限りませんが。
p.2 良品、不良品をクラス分類する代表的な2つの方法です。左は「k近傍法」です。予測したいサンプルを中心とした円内にk個のサンプルと予測サンプル間の距離を算出して判定します。下方に、k=1の場合とk=3の場合の判定結果を示します。 右図はサポートベクターマシンのイメージ図です。境界線からの距離が最大になるように線を引きます。この例の場合は、「良品」と判定されます。
サポートベクターマシンの使い方については「識別式設定の原理」をご覧ください。