「事例で学ぶあたらしいデータサイエンスの教科書」(著者:岩崎 学 発行所:翔泳社)を紹介します。統計を習っても、使い方がわからないと意味がないですね。この本のの中に、「エコロジカル・インファレンス」とか「トモグラフィーライン」等の見馴れない語句が登場してきます。今回「トモグラフィーライン」について、理解した部分をまとめておきます。
資料はこちら → トモグラフィーライン
p.1 左上に、2つの学科試験について男女の合格・不合格の比率のデータがあります。本来は表の空欄部分にデータがあるのですが、欠落しています。左中央に、各学科試験の、女子比率と不合格率のデータあります。このデータの散布図を描いて、近似曲線を求めます。勾配aと切片bが求まります。右上の表をご覧ください。ここで、B1の列を足し合わせた式は、Yi=pXi+r(1-Xi )となり、変形してYi= r +(p-r) Xiとなります。この式が、上述の近似式と同一であると仮定すると、係数を比較して、r=bとp = a+bとなり、近似式の数値より、r=0.3861、p=0.1954となります。Yi=pXi+r(1-Xi )の両辺を(1-Xi )で割って、pとrの式に変形します。学科1と学科8の表のXiとYiを代入すると、学科1と8について、pとrの関係式が作成できますので、p=0とp=1を代入してグラフに描いたものが、右下のグラフです。ピンクの点は、近似式から求めた(p、r)の点です。左上の空欄部は、この直線の何れかの(p、r)を取り得ることができますが、ピンクポイント近傍が確からしい(p、r)と考えられます。この直線のことを「トモグラフィーライン」と呼びます。
p.2 8つの地域のワクチン接種率と重症化率のデータがあったとします。中央上の表です。地域1について表を作成して数値を入れておきます。これも空欄部分のデータが欠落しています。8つの地域のワクチン接種率と重症化率のデータの散布図の近似式から、(p,r)のポイントを算出します。p.1と同様の手順で地域1~8について、pとrの関係式を求めて、グラフ化したものが右下のグラフです。各々地域で最適な(p,r)を計算で求めることできるようなのですが、上述の本ではそこまでは言及していません。 私の考えでは、近似式で求めたピンク色のポイントから各地域の直線に垂線を立てて交わった交点が最適な(p,r)ではないかと思いますが、まだ確証できていません。
今回、欠落したデータを用いても、ある程度推測可能であることがわかりました。「トモグラフィーライン」については、検索してもなかなかヒットしないので、新たな情報が得られればお知らせします。
今回のExcelファイル → トモグラフィーライン