データサイエンス トピックス

データが欠測している場合は?

投稿日:

データが欠測している場合の処理方法を取り上げます。品質工学の場合は、「実験失敗して諦めない」をご覧ください。処理方法を検索していたら、総務省に以下の資料がありましたので、参考に実施してみました。

総務省の資料はこちら → https://www.soumu.go.jp/main_content/000741247.pdf

本日の資料はこちら → 欠測処理

p.1 総務省の資料にある欠測の処理方法の一覧表です。

p.2 先ず、平均値法回帰法を試してみます。年齢収入に関する全データおよび相関図を左に示します。左から2番目は、ID8~10の収入データが欠測している場合です。Excelの場合、欠測のあるセルは無視して平均値を算出します。 右側から2番目が、この平均値を欠測セルに代入した表とグラフです。「平均値法」と呼びます。一番右は、左から2番目のグラフの近似式を用いて、欠測セルに予測値を代入した処理法で「回帰法」と呼びます。「平均値」の場合は、全データに比較して過小評価気味になっています。欠測が数値が大きいデータにあるためですね。直線回帰がある場合は、当然だと思いますが、「回帰法」でデータを補完するのが良さそうです。全データに近い相関が得られます。

 

-データサイエンス, トピックス

Copyright© 進化するガラクタ , 2024 All Rights Reserved Powered by STINGER.