管理図の係数をどのように計算するのかについて、以前から疑問を持っていました。下記サイトには計算式が掲載されており、参考URLが示されております。これらの情報を基に、私なりにまとめてみました。
参考にしたWebサイト → https://opeo.jp/library/onepoint/calc/calc_method/ccc_calc/
まとめた資料はこちら → 管理図係数
p.1 以前「大事になる前の予防」で説明した資料の一部を再掲します。上方管理限界(UCL)の式を見ると、(Xのダブルバー)+A2×(Rのバー)になっています。通常は、右下の表で該当するサンプルサイズnのA2の値を用いると説明し、表がない場合は、平均値+3σ/√nで計算してもよいと説明しました。なぜ、これでよいのかについては、説明できていませんでしたので、現時点で理解できたことを次ページ以降説明していきます。
p.2 左下図とUCLの式をご覧ください。管理図のUCLは母集団からサンプリングした標本のデータを用いて設定します。n個ずつサンプリングした標本の平均値が、x1バー、x2バー‥‥xnバーの時、これら平均の平均が標本平均の平均値(xダブルバー)です。標本平均は緑色の分布となり、その標準偏差を標準誤差SEと呼び母分散の標準偏差σを√nで割った値になります。左下図をご覧ください。(xダブルバー)+3×標準誤差(σ/√n)の値が上方管理限界UCLの位置になります。下限管理限界LCLは、(xダブルバー)-3×標準誤差(σ/√n)の位置となります。母分散に比較して、標本平均の分布の分散は小さいので、UCLあるいはLCLは母分散よりも必ず内側になりますので、アラートレベルとして利用できるわけです。手計算しかない時代は、標準誤差ではなく範囲Rの値を用いて計算する係数A2あるいはd2が考案されたようです。3つ目と4つ目の式を用いて、範囲R、σ及び√nを関連付けています。範囲Rとσの比を表す新たな係数d2が登場してきます。範囲Rもσも分布の拡がりを示す値ですね。左下のイメージが大事ですね。
p.3 矢印で示したd2を求める算出式は、複雑で、以下の資料で説明されていますが、直ぐには理解できないので、順番に読み解いていこうと思います。興味がある方は、以降お読みください。
d2算出式に関する文献 → 範囲
p.4 確率変数、確率分布及び累積分布関数について説明します。1~100の数字のカードをランダムに引いてきた場合の確率分布をf(x)とおきます。どのカードを引いても確率は1/100で一様ですね。次に累積分布関数F(x)をみます。例えばF(5)は、5以下のカードを引く確率ですので、F(1)~F(5)を加算した5×(1/100)となります。F(50)~F(39)は、40~50のカードを引く確率となります。(50-39)×(1/100)で算出します。当然100以下のカードを引く累積分布関数F(100)は1ですね。
p.5 確率変数 X1,…,Xnが最大値x以下である確率は累積分布関数F(x)で表すとF(x)nです。最小値x以上である確率は、1 -{1-F(x)}nとなります。この形は、p.3のd2の式に含まれていますね。
p.6 正規分布の確率分布関数f(x)を−∞から∞まで積分したものを累積分布関数F(x)とするとF(−∞)=0、F(∞)=1となりますね。先ず、大きさnのサンプルxiの最大値xL の期待値を求めます。期待値は右表のように各々の確率変数Xとその確率P(X)を掛けて合計した値です。最大値の期待値は、緑の確率に各々の変数xiを掛けて足し合わせて求めます。緑の確率は、xiが最大値で、それ以外のn-1個のxj (i≠j)がxi以下になる確率です。p.5でこの形になることを示しました。Σを外してnが現れますので、F(x)nの微分形としてまとめます。最小値の期待値も同様に式を変形していきます。
p.7 p.3を再掲します。最大値と最小値の期待値より範囲Rの期待値を算出します。1つ目の式に部分積分を適用して、式を変形していきます。次に、確率変数xが元の変数Xの平均μと標準偏差σによって、 x=(X-μ)/σと標準化された値のとき、Xの範囲の期待値R ̅と標準偏差σの関係を求めます。右下図をご覧ください。右側の分布を標準化した分布が左のグラフです。わかりやすくするため、X=σの位置にするとx=1となります。累積分布関数F(x)が標準正規分布の場合、一番下の式で表され、F(x)は右下図の水色の面積の確率に相当します。標準化前の面積F(X)は、標準化後の面積F(x)のσ倍であることが明らかです。以上により、範囲Rバーとσの関係に係数d2が使われていることがわかります。