データサイエンス トピックス

より近いものは?

投稿日:

データが欠測している場合の処理方法その2です。

資料をご覧ください → 欠測処理その2

p.1 処理法のまとめ(再掲)です

p.2 「比率補完」です。「資本金1,350億円の法人Aが設備投資金額を未提出」の場合に、他法人のデータを基に見積ります。手順を右側に示し、左下の表の➀~③の箇所をご覧ください。未定出法人Aの資本金より小さい法人を含めて10社の(設備投資/資本金)比率の平均値を算出して、法人Aの設備投資を見積もっています。

p.3 「ホットデック法」です。少々煩雑な数式処理をする必要がありますが、最近は行列の計算を、pythonや統計ソフトなどでも簡単にできるようになっているので、方法だけ理解してください。売上、仕入、経費及び給料の因子のデータの内ID3の給料のデータが欠測した場合を考えます。給料以外の3つの因子間の相関関係を用いて、マハラノビス距離DをIDごとに算出します。マハラノビス距離Dが小さい場合性質が近い仲間と見なします。マハラノビス距離Dは右上の式で算出します。興味がある方は、矢印に沿ってご覧ください。算出した結果、ID3に近いD値であるID1の給料0をID3の値として採用します。「MT法にpythonを使ってみました」も参考に。

p.4 LOCF(Last Observation Carried Forward)は、過去からの変化率を加味して算出します。欠測以外の比率を算出して、(過去データ×比率)により算出します。

以上のように、欠測したデータを補完するには、いろいろな方法があります。どの方法を採用するかは、ケースバイケースなので、補完の原理だけは理解しておきたいものです。

Excelファイルは → 欠測

-データサイエンス, トピックス

Copyright© 進化するガラクタ , 2024 All Rights Reserved Powered by STINGER.