予測できますか？

投稿日：2024年12月4日

「独学で鍛える数理思考」（著者：古嶋十潤　発行所：技術評論社）から、情報検索に関する数理その3です。今回は、複数の商品について顧客が評価点を付けた場合に、データの欠損がある場合にその欠測部を予測する方法についてまとめます。以前にも何回か取り上げていますので、そちらもご覧ください。「データが欠測している場合は？」「より近いものは？」「データ不足の場合」「実験失敗して諦めない」

資料はこちら　→　情報検索その3

p.1　商品をitem、顧客をuserとしたとき、各商品の評価を点数化してまとめた表です。「－」は無回答です。商品を購入したことがないので、評価できなかった場合です。一般化した行列が左、右は数値化した行列です。

p.2　無回答の商品は購入していないと仮定して、レコメンドの対象とします。悪い商品をレコメンドできませんから、評価のそこそこ高い商品をレコメンドします。そのためには、欠損部分の評価点を推測する必要があります。その方法を３つ、紹介します。➀userを軸とする予測値算出する方法。各itemの評価が類似しているuserを選び、そのuserの値を用いる方法。②itemを軸とする予測値算出し、各userの評価が類似しているitemを選び、そのitemの値を用いる方法。③行列因子分解：評価値を分解した潜在因子行列を解析的に求めて予測値を算出する方法。評価結果の行列を２つの潜在因子行列に分解して算出します。この方法は計算が複雑ですので、明日説明します。

p.3　上述の➀と②の方法は「協調フィルタリング法」と呼ばれています。➀は左表をご覧ください。user3とuser4の赤枠にあるitem2とitem3をご覧ください。item3はitem2より評価高いので、user1とuser2のitem3の欠測部は、4か５と予測します。②は右表の赤枠部をご覧ください。item3はitem2より評価高く、item3とitem4は同じなので3と予測します。

今回の予測は、かなり主観が入ってしまうかもしれませんし、AIのアルゴリズムに組み込むのは難しいかもしれません。明日は、数理的な処理で予測値を算出する方法を説明します。