重回帰分析等について補足説明です。重回帰分析については「ここにも登場する?」「適正価格は勘で決める?」をご参照ください。
資料はこちら → 説明変数
p.1 重回帰式は、被説明変数(結果)が、複数の説明変数(原因)に寄与度の係数を乗じた和で表されることは上記ブログで説明しました。今回の補足は、各変数の単位が異なる場合、各変数を標準化する操作があります。 標準化は変数から平均値を差し引いて分散で割ります。この場合の寄与度の係数を「標準偏回帰係数β∗」と呼びます。
p.2 家賃が被説明変数、広さ・築年数・徒歩所要時間・方角が説明変数です。係数を算出する際に、p値も算出してくれます。p値は係数の有意性を示しますので、相関係数が低いとp値が大きくなります。大きいp値の説明変数は除外します。「相関が良すぎてもダメ」で説明したように、相関係数が良すぎるとp値は計算不能となります。式をシンプルにするためにも、説明変数を整理することは重要です。
p.3 左上の図をご覧ください。非正規社員と正社員の所得を年齢に応じてプロットしています。区別がわかるように色をつけていますが、区別せずに前データの近似式を描き近似式を算出しています。非正規と正社員の中間に近似式が描かれています。非正規と正社員の勾配は同様ですが、切片が異なっているように見えます。そこで、y=α+β1 x+β2 DにおいてD=0とD=1の2つの式を設定すると非正規と正社員に別々の近似式が描かれてフィットします。このD値のことを「切片ダミー」と呼びます。 今度は、右上をご覧ください。今度は、勾配が異なっているように見えますね。そこで、今度はy=α+β1 x+β2 D+β3 Dxという式においてD=0とD=1として2つの式を近似させると、フィットしました。今回のD値は「傾きダミー」と呼びます。ダミー変数の使い方は、管理職と平社員、大人と子供、都市部と地方などのようにグループの違いがはっきりしている場合にD=0とD=1として数式を立てて近似します。