トピックス 統計

ソフトで異なる箱ひげ図

投稿日:

箱ひげ図については、何度も説明してきました。本日は、同じデータを用いて種々のソフトで描いて比較してみました。各ソフトの使い方も説明します。

資料はこちら → データサイエンスの基本1

p.1 Excel、Python、統計ソフトR及び統計ソフトMinitabを用いて描いたものを並べてみました。ExcelとMinitabPythonとRが同じような箱ひげ図になっているのに気が付くと思います。そこで、右下の箱ひげ図の意味を踏まえて、AFについて手作業で数値を計算してみました。詳細はp.2をご覧ください。左下が計算結果です。赤字がA緑字がFの計算結果です。ExcelとMinitabの実行結果と一致しました。PythonとRの箱の長さが、ExcelとMinitabより短くなっています。今回データ数が偶数です。中央値を挟む2つの平均値第1四分以点は下部データの中央値を挟む平均値第3四分以点は上部データの中央値を挟む平均値で計算すると次ページで計算するようにExcelyとMinitabの箱ひげ図になります。PythonとRの計算式がわからないので、推測ですが、データを4つのグループに分けて、第3四分以点は上から2つ目のグループの最大値を、第1四分以点は下から2つ目のグループの最小値を採用しているものと思われます。どちらが適正か不明ですが、データ数が偶数の場合は、平均値で算出した方が私はしっくりします。このように、ソフトはブラックボックスのことが多いので、鵜吞みにせず、しっかり検証してみてください。

p.2 見ていただければ、算出の仕方は理解していただけると思います。

p.3 ➀Excelにデータを入力後、②B、C列をアクティブにして、③挿入→箱ひげ図にすると箱ひげ図が描かれます。

p.4 Pythonは、コードを入力して実行すると、データセットを読み込んで、箱ひげ図を描いてくれます。

p.5 Rは、pythonより簡単なコードで箱ひげ図を描いてくれます。

p.6 Minitabは、➀データ入力後、グラフ→箱ひげ図を選び、②1つのY→グループを選択、③グラフ変数グループカテゴリ変数を選択OKで箱ひげ図が描かれます。

箱ひげ図の説明ブログ「視覚的で便利」「言葉の定義を明確に」「用いるか、用いないかで変わる

-トピックス, 統計

S