比例区選挙のデータサイエンス

31日の衆議院選挙の比例区で、「立憲民主党」の略称が、「民主」、「国民民主党」の略称も「民主」で、同じに、設定されていました。この略称は、選挙管理委員会が指定していますので、意図的に混乱を期待している疑惑があります。例えば、「民主り」、「民主こ」といった具合に、識別子を付ければ、混乱は避けられますので、略称を全く同じにする必然性はありません。

 

ここで、有権者は、「民主」と書いた場合には、「立憲民主党」に0.5票、「国民民主党」に0.5票、投票したとみなすのが、公職選挙法のルールらしいです。

しかしながら、このルールは、データサイエンスでみれば、不合理または、誤りです。

比例区の投票が行われる前の情報では、「立憲民主党」に0.5票、「国民民主党」に0.5票、つまり、「民主」が、「立憲民主党」である確率は、0.5、「国民民主党」である確率も、0.5と考えることが合理的です。これは、イベントの発生前で、事前情報がない場合の確率です。

選挙をおこない、「立憲民主党」とかかれた票が、X票、「国民民主党」と書かれた票が、Y票、「民主」と書かれてた票が、Z票あったとします。

この場合、事後情報として、「立憲民主党」とかかれた票が、X票、「国民民主党」と書かれた票が、Y票、が入手出来ています。

これから、

「民主」が、「立憲民主党」である確率は、X/(X+Y)

「民主」が、「国民民主党」である確率は、Y/(X+Y)

と考えることが自然です。(注1)

この方法を使うと、

立憲民主党」の票=X+Z*X/(X+Y)

「国民民主党」の票=Y+Z*Y/(X+Y)

になります。

現行の計算式は、

立憲民主党」の票=X+Z*0.5

「国民民主党」の票=Y+Z*0.5

です。

いずれにしても、投票イベントによって、得られた情報を活用しないことは、不合理で、データサイエンスとしては、不適切なデータ処理になります。

このレベルの統計学の知識の欠如に対して、だれも、苦情を言わないので、リテラシーが怪しいという気もします。

 

注1:

ベイズ更新で考えると、事前確率の影響が、もう少し、残りますが、ここでは、そこまで、考える必要はないと思います。

 

前の記事

水素自動車のリスクを考える 2021/10/31

次の記事

衆議院選挙の出口調査と結果 2021/11/02