「独学で鍛える数理思考」(著者:古嶋十潤 発行所:技術評論社)から、情報検索に関する数理その2です。
資料はこちら → 情報検索その2
p.1 最近は何でも数値化する時代になってきました。数値化するとAIを働かせることができますね。「ユーザー行動を平均値化」する事例として、Webサイトでの検索が示されています。閲覧回数とclick回数について平均値を求めています。
p.2 文章を数値化する場合は、➀クレイジング、②単語分割、③正規化そして④ベクトル化の順番に進んで行きます。クレイジングはゴミ除去です。単語分割は、動詞、名詞、形容詞に分解していきます。正規化は、同じ意味の単語を統一化します。日本語はひらがな、カタカナや漢字があるので、統一化は大事です。 このような前処理をした後に、単語をベクトル化します。各成分について、「0」「1」で書き換えていきます。こうすることで、数値処理を可能にします。実際、試してみたい方は、以前のブログ「単語ベクトル算出を試してみました」に方法を書いておきました。