昨日の決定木にジニ係数で最適解に導く話をしました。Websiteでこの「ジニ係数」を検索すると、もともとは経済学で用いられているようです。「不平等さを測る指標」だそうです。資料をご覧ください。
資料はこちら → ジニ係数
p.1 横軸に世帯の累積比、縦軸に年所得の累積比をとります。所得格差がなければ、累積世帯数と累積所得は1対1の直線で傾きは45度になります(均等分配線)。格差が大きくなると破線円弧部分の面積が大きくなっていきます。ジニ係数は、円弧の面積÷三角形の面積です。あるいは円弧面積の2倍です。
p.2 2009、2014、2018及び2019年の年収を低い方から高い方に並べて、世帯数が5等分になるようにして第1~5分位とします。各々の年収の平均値を左上の表にしてあります。その下の表は、年収の合計に対する百分率にした後、累積した値です。世帯累積比[%]を横軸に、累積所得比[%]を縦軸にしてグラフにしたものが右下のグラフです。2009、2018及び2019年は差がないのでほぼ重なっています。
p.3 ジニ係数を計算してみます。ローレンツ曲線を式にせずに、分割して図形の面積で近似します。横軸を0.2刻みの高さとして、三角形と台形の面積を算出して合計の面積を算出します。黄色の三角形の面積は、(1×1)÷2=0.5ですね。この面積から、三角形1個と台形4個の面積を引いたものが黄色の円弧の面積ですので、これを黄色の三角形の面積で割ると0.199となります。 同様に2009、2018及び2019年のジニ係数を算出してプロットしたものが右下のグラフです。2014年だけ所得格差が少ないですが、他の年は0.3弱で同等の所得格差です。 元になるデータは政府のe-statという統計データから持ってきたのですが、統計データの集計がおかしいのでしょうか? このジニ係数は所得再配分等で値が変わってしまいます。為政者によって騙されないように、国民も賢くならないといけないと思います。
p.4 各国のジニ係数です。 社会騒乱多発の警戒ラインは、0.4と言われていますので、もう少し引き下げたいところです。
決定木のジニ係数は、差がある方が0、平等で1となりますが、経済学のジニ係数が逆ですね。間違えないように。