「因果推論の科学」をめぐって（２）

注：これは、ジューディア・パール、ダナ・マッケンジー「因果推論の科学―「なぜ？」の問いにどう答えるか」のコメントです。

（２）反事実序説

１）反事実の基本

「因果推論の科学」は、一般向けの啓蒙書ですが、パール先生が、使っている大学院の講義テキストが「入門統計的因果推論」として出版されています。このテキストは、一般の統計学のテキストを学習済みであることを前提に書かれています。

「因果推論の科学」も同様に、一般の統計学のテキストを学習済みであることを前提に書かれています。

しかし、日本では、文系では数学が必修ではありません。また、数学のカリキュラムの中に、統計学が入っていない場合もあります。

つまり、統計学をつかったメンタルモデルが形成されにくい状況にあります。

例をあげて説明します。

Aさんが、努力して勉強したので、難関大学に合格したという因果推論を考えます。

「努力して勉強した（原因）＝＞難関大学に合格（結果）」（A)という因果推論です。

この因果推論は、次の推論を含みます。

「勉強しない（原因）＝＞難関大学に落第（結果）」（B)

ここで、事実は、（A）または（B)のいずれかで、この2つが同時に起こることはありませ

ん。

次の推論が成り立つ場合には、（A)の因果推論は間違いになります。

「勉強しない（原因）＝＞難関大学に合格（結果）」（C)

統計的因果推論では、推論の正しさは確率で表現されます。

その場合、（A)）が、成り立つ確率が80％、（C)が成り立つ確率が20％といった数字になります。

（A）か、（C)かに問題を単純化する必要がありません。

（A）か、（C)かに問題を単純化する方法には、バイナリーバイアスがあり、避けるべきです。

ここまでの問題を整理します。

Aさんについて観測されるイベントは1つだけであり、因果推論の対象にはなりません。

因果推論を定式化し、検証するためには、複数のイベントを対象にする必要があります。

大学受験であれば、複数の受験生を対象に、推論します。

Aさんが、模擬試験をうけて、偏差値が30で、合格判定が20％であったと仮定します。

偏差値は、全受験生の中で、Aさんの模擬試験の点数の分布位置を示します。

模擬試験の点数は、正規分布をしないことが多いので、正規分布はラフな近似にすぎません。このことから、偏差値に問題があるという人もいますが、その説明は間違っています。

現在では、ベイズ統計学の進歩により、任意の分布の確率計算ができますので、正規分布にこだわる必要はありません。

「Aさんの合格判定が20％」は、実は、Aさんに関する記述ではありません。

「Aさんの合格判定が20％」は、Aさんを含む偏差値30前後の複数の受験生を対象にした推論です。

Aさんは、模擬試験で、たまたま偏差値が30のグループに分類されましたが、Aさんが、どのグループに属するかは、試験をうけてみなければわかりません。

偏差値30という数字は、（AさんX試験）に対する数値であり、Aさんの属性ではありません。

Aさんが勉強すれば、Aさんは、上位の偏差値グループに移動します。そうすれば、合格判定は改善します。

問題は、偏差値ではなく、今後、点数（偏差値）を改善する余地があるかという点になります。

偏差値で、人間を評価することは間違いであると主張する教師もいます。

しかし、そのように主張する教師は、統計学が理解できていないので、適切な説明ができないことが問題が起きる原因である場合が少なくありません。

２）ルイスの可能世界

反事実には、現実におこらなかったことを因果推論の対象に含める意味があります。

ルイスは、可能世界という表現で、この問題を論じました。

これには、非常識であるという批判があります。

しかし、筆者は、確率とは、可能世界の問題であると考えます。

例をあげます。

サイコロをふって、１の目が出たとします。

「サイコロを振る（原因）＝＞１の目が出る（結果）」

このイベントを単純モデル化すれば、サイコロを振れば、かならず１の目がでることになります。

もちろん、それは間違いで、１の目が出る確率は6分の１です。

サイコロを振る前に、考えられる推論は以下です。

「サイコロを振る（原因）＝＞１の目が出る（結果）」（W1）

「サイコロを振る（原因）＝＞２の目が出る（結果）」（W2）

「サイコロを振る（原因）＝＞３の目が出る（結果）」（W3）

「サイコロを振る（原因）＝＞４の目が出る（結果）」（W４）

「サイコロを振る（原因）＝＞５の目が出る（結果）」（W5）

「サイコロを振る（原因）＝＞６の目が出る（結果）」（W6）

ここには、6つの可能性世界があります。

サイコロを振って1の目がでた場合には、（W1）の可能世界が実現して、（Ｗ２）から（Ｗ６）の可能世界は実現しなかったことになります。

その結果から、（Ｗ２）から（Ｗ６）の可能世界の信頼性が揺らいだとは考えません。

「１の目が出る確率は6分の１」という主張は、仮に、（Ｗ２）が実現しても揺らぐことはありません。

（W1）から、（Ｗ６）の可能世界のうち、サイコロを1度振ることで、実現する可能性は１つだけです。そのことによって、実現しなかった可能性の信頼性が揺らぐことはありません。

別の例を考えます。

4回転ジャンプにチャレンジするフィギュアスケート選手を考えます。

次の、演技が最終演技で、4回転ジャンプが成功すれば、金メダルがとれるとします。

最近の練習のデータから、この選手が、4回転ジャンプに成功する確率は3分の２であることがわかっています。

わかりやすくするために、サイコロと同じように、等確率で可能性世界を記述します。

「4回転ジャンプをする（原因）＝＞ジャンプが成功して金メダルを得る」（Ｘ１）

「4回転ジャンプをする（原因）＝＞ジャンプが成功して金メダルを得る」（Ｘ２）

「4回転ジャンプをする（原因）＝＞ジャンプが失敗して金メダルを逃す」（Ｘ３）

ここには、（Ｘ１）（Ｘ２）（Ｘ３）の可能世界があり、ジャンプをすれば、どれかの可能世界が、実現します。

どの可能世界が実現するかは、ランダムに決まっています。

１つの可能世界が実現しても、残り２つの実現しなかった可能性が実現するかも知れないという信頼性が揺らぐことはありません。

こう考えると、金メダル絶対主義のマスコミ報道には、あまりの統計学のリテラシーの低さに、絶望を感じます。

３）まとめ

確率は、複数のイベントを集計して計算することで得られます。

しかし、関心がある因果推論は、特定の個人といった１つのイベントに関わるものです。

「サイコロの1の目がでる確率が6分の１」は、頻度主義の表現で、ベイズ統計では、修正が入ります。

頻度主義の確率は、個別のイベントではなく、複数のイベントのグループに対して行なわれます。

個別のイベントの確率を考えると、それは、自動的に、可能世界を前提にすることになります。

頻度主義では、個別のイベントの確率と複数のイベントのグループの確率が区別できません。

イベントのグループの確率は、中心極限定理に従いますが、可能性世界を考えた個別のイベントの確率には、中心極限定理が使えません。

パール先生の、反事実は、可能性世界を考えた個別のイベントの確率を問題にしています。