過去ブログ「実験失敗して諦めない」の品質工学実験においてデータが取れなかった場合の話をしました。 本日は「事例で学ぶデータサイエンスの教科書」(著者:岩崎 学 発行所:(株)翔泳社)を参考に説明します。資料をご覧ください。
資料はこちら → 欠測
Excelファイルはこちら → 欠測
p.1 データがないことを「欠測」と呼びます。データに欠測がある場合、3つの対処法があります。①データの組合わせが無い場合、不完全な部分は削除します。②例えば、平均値や回帰式で推測される値を穴埋め、③欠測の理由を盛り込んだモデルを作成します。
p.2 年齢に対する収入のデータが揃っているのが左上の表とその下のグラフです。真中の黄色の部分が「欠測」です。年齢は10人のデータを使って平均値及び標準偏差を算出していますが、収入は7人のデータを用いています。右端は揃っている7人分のデータを用いています(削除法)。 右2つのグラフは、当然ですが近似式も同じになっています。
p.3 真ん中の表及びグラフは、7つの収入データの平均を欠測部に入れたものです(補完法)。傾きがかなり低下しています。右端は、7つのデータの回帰式に年齢を代入して収入を算出しています(補完法)。当然ですが、欠測部のデータは直線状に載っています。 品質工学の際は、欠測部に平均値を入れていますが、本件の場合は平均値は適切でないようです。年齢が高い方で平均値を入れたことで過小評価することになったようです。品質工学の場合は、要因に影響を及ばすかどうか不明なので、取り合えずSN比影響を与えない平均値を入れておくということなのでしょう。 本事例の場合は、回帰式の方が平均値よりは処理として適切ですね。ただし、収入が年齢に応じて直線関係が常に成立する前提であればOKだと思いますが、急激に増加あるいは減少する場合には用いない方が賢明です。欠測データが、今回のように端に偏ってある場合は特にリスクがあります。あえて欠測部分を埋める必要はないと考えます。
p.4 機械部品の寿命を31日目までみて試験を打ち切りました。この際、10個のうち2個は、まだ寿命に達していませんでした。ここまでのデータで寿命を算出してください。という問題です。全てのデータの総和を10個ではなく、寿命が確かな8個で平均値を算出すると確からしいようです。