トピックス 品質工学 統計

相関が良すぎてもダメ

投稿日:

過去ブログ「適正価格は勘で決める?」「いい加減に覚えると後が大変」「やっと理解の糸が繋がった」で重回帰分析マハラノビス距離の話をしてきました。 今日は、これらの解析に当たって気を付けなければいけないことについて説明します。

資料はこちら → 多重共線性

Excelファイルも併せてご覧ください → 多重共線性

p.1~5 過去ブログの資料再掲します。 重回帰分析の事例です。サッと流し読みして、思い出してください。

p.6 距離、握力、身長及び体重について15人分のデータがあります。ここで、故意に身長と体重は相関係数r=1の直線関係になるように、体重のデータを書き換えました。

p.7 Excelの分析ツールを用いてp.3と同様に重回帰分析を実施した結果を示します。距離を目的変数yとし、それ以外を説明変数xとしました。一番下の表各説明変数の係数及び切片が算出されています。体重の行を見てください。t値は寄与度を示しますが異常に大きい値ですし、p値は計算不能になっています。 これは、身長と体重が相関係数r=1のため起きる事象で「多重共線性」と呼びます。

p.8 Excelの分析ツールを用い、各説明変数間の相関係数を算出したものが上の表です。その下の表は、相関係数rを用いてVIF(Variance Inflation Factor:分散拡大要因)を算出しました。VIFが10以上の場合、多重共線性の疑いがあるそうです。 身長と体重が交わるセルのVIF計算不能です。VIFの分母がゼロなので計算不能になるはずです。相関係数が高い2つの因子がある場合、いずれかの因子のデータは用いないことが対策となります。

p.9 以前話した「マハラノビス距離」を算出する式の中にも逆行列が有り、相関係数r=1の場合は計算不能になるため、チェックが必要です。

パラメータが多い重回帰分析、品質工学の直交表において、あまりにも相関が良いパラメータが2つある場合は、どちらか一つだけ採用するようにしましょう。品質工学の直交表の各列の相関はゼロであることが好ましいですね。過去ブログ「直交表の意味は?」をご覧ください。

 

-トピックス, 品質工学, 統計

Copyright© 進化するガラクタ , 2020 All Rights Reserved Powered by STINGER.