データが欠測している場合の処理方法を取り上げます。品質工学の場合は、「実験失敗して諦めない」をご覧ください。処理方法を検索していたら、総務省に以下の資料がありましたので、参考に実施してみました。
総務省の資料はこちら → https://www.soumu.go.jp/main_content/000741247.pdf
本日の資料はこちら → 欠測処理
p.1 総務省の資料にある欠測の処理方法の一覧表です。
p.2 先ず、平均値法と回帰法を試してみます。年齢と収入に関する全データの表および相関図を左に示します。左から2番目は、ID8~10の収入データが欠測している場合です。Excelの場合、欠測のあるセルは無視して平均値を算出します。 右側から2番目が、この平均値を欠測セルに代入した表とグラフです。「平均値法」と呼びます。一番右は、左から2番目のグラフの近似式を用いて、欠測セルに予測値を代入した処理法で「回帰法」と呼びます。「平均値」の場合は、全データに比較して過小評価気味になっています。欠測が数値が大きいデータにあるためですね。直線回帰がある場合は、当然だと思いますが、「回帰法」でデータを補完するのが良さそうです。全データに近い相関が得られます。