たった2つのこと(1)

因果推論の科学と統計学の間には、ギャップがあります。

 

しかし、そのギャップは、ほとんど理解されていません。

 

科学の仮説を作成する目的は、因果モデルを作ることです。

 

第1に、原因と結果のパラメータを設定する必要があります。

 

原因と結果を識別する方法には、ヒュームが提案した時間的に前が、原因で、時間的に後が結果という判定条件があります。

 

しかし、重力波のように、伝播速度が測定できていない現象もあります。

 

つまり、この方法は、万能ではありません。

 

逆に、原因と結果のタイムラグが大きな場合には、その間に、ノイズと交絡因子が入り込み、仮説が作れなくなります。

 

人口のコフォートは、20年のタイムラグのある因果が観測できる数少ない例です。

 

教育効果を計測する場合には、テストの成績は、その前の全ての授業の理解の影響をうけています。特定の授業の教え方をテストで評価することは、困難です。

 

授業の介入の前後2回にわけて、データをとる必要があります。

 

しかし、この方法では、時間をかけて脳の中で理解が進行する部分は評価できません。

 

結局、何が、原因で、何が結果であるかという判断が、主観の問題です。

 

モデルのパラメータの選択は、主観の問題です。

 

AIをつかって、しらみつぶしに、相関係数の高いパラメータの組み合わせを探索することができます。しかし、その場合でも、原因と結果の区別はできません。

 

第2に、交絡因子があれば、統計解析は、破綻して、再現性がなくなります。

 

再現実験をするときに、交絡因子の値が変化していれば、再現性はなくなります。

 

これが、RCTが必要な理由ですが、この点が、ほとんど理解されていません。

 

パールの「因果推論の科学」によれば、この2つは、統計学の教育の失敗に原因があると考えられます。

 

たとえば、相関と因果の違いについて、多くの統計学の教科書では、ヒルの基準が採用されています。

 

ヒルの基準は、いくら読んでも、理解できない代物ですが、教科書が間違っていると自信をもって言える学生はいません。教師もヒルの基準が間違っているとは言いません。

 

パールは、ヒルの基準には、相関と因果を区別するためには、「正確には何をする必要があるか」は、(かかれていないので)、「個々の科学者が自分で判断するしかない」といいます。(「因果推論の科学」、p.277)

 

しかし、パール以上に、ヒルの基準は、実際には、役にたたないと言っている人はいません。