アンケートを集計した際に、外れ値をどのように判定したら良いかの質問がありました。幾つか方法があります。私がすぐに思いつくのは、「箱ヒゲ図」、「スミルノフ・グラブス検定」と「MT法」です。MT法は以前説明しましたのでそちらをご覧ください。「正常、異常をどう数値で判断するか?」と「MTシステムの活用例」です。今日は「箱ヒゲ図」について説明します。
資料はこちら → 外れ値その1
p.1 10人の月収の一覧表をヒストグラムすると明らかに1名だけ突出していることに気が付きます。これだけ離れていれば分かり易いのですが、数値で判定したくなりますね。
p.2 先ずは箱ヒゲ図の仕組を理解しましょう。左上のように10名のデータを小さい順番に並び替えます。この場合データが偶数ですので、5と6の間が中央値なので5と6の平均値が第2四分位になります。数値が小さい方1~5の中央値が第1四分位、6~10の中央値が第3四分位です。人数が奇数に場合は、下のようになります。 Excelには四分位を計算する関数があります。「QUARTILE(データ範囲、戻り値)」の戻り値に0~4を入れれば、各四分位及び最大・最小値が算出できます。左のような手作業の数値と少々異なった値(赤字)になります。計算のアルゴリズム上、已むをえないのでしょう。この箱ヒゲ図を管理図と併用すると良いかもしれません。
p.3 上の四分位のデータを用いて、最近のExcelでは簡単に箱ヒゲ図が書けます。私のPCは、古いExcelなので少し面倒でした。箱の底面が第1四分位、箱の上面が第3四分位、そしてエラーバーが最小値と最大値を示しています。 外れ値の閾値上と下は、右のように箱の上下の幅(第3四分位-第1四分位)の1.5倍を箱の両端から上下に伸ばした位置になります。 今回のデータでは、上の閾値が42.4、下が13.4と算出されます。最小値は閾値内に入っているため、外れ値ではありませんが、最大値は上の閾値を超えていますので外れ値です。数値で判定するので主観が入らずよいですね。
明日は統計量を用いて判定する「スミルノフ・グラブス検定」について説明します。