たった２つのこと（１） - computer

因果推論の科学と統計学の間には、ギャップがあります。

しかし、そのギャップは、ほとんど理解されていません。

科学の仮説を作成する目的は、因果モデルを作ることです。

第1に、原因と結果のパラメータを設定する必要があります。

原因と結果を識別する方法には、ヒュームが提案した時間的に前が、原因で、時間的に後が結果という判定条件があります。

しかし、重力波のように、伝播速度が測定できていない現象もあります。

つまり、この方法は、万能ではありません。

逆に、原因と結果のタイムラグが大きな場合には、その間に、ノイズと交絡因子が入り込み、仮説が作れなくなります。

人口のコフォートは、20年のタイムラグのある因果が観測できる数少ない例です。

教育効果を計測する場合には、テストの成績は、その前の全ての授業の理解の影響をうけています。特定の授業の教え方をテストで評価することは、困難です。

授業の介入の前後2回にわけて、データをとる必要があります。

しかし、この方法では、時間をかけて脳の中で理解が進行する部分は評価できません。

結局、何が、原因で、何が結果であるかという判断が、主観の問題です。

モデルのパラメータの選択は、主観の問題です。

ＡＩをつかって、しらみつぶしに、相関係数の高いパラメータの組み合わせを探索することができます。しかし、その場合でも、原因と結果の区別はできません。

第2に、交絡因子があれば、統計解析は、破綻して、再現性がなくなります。

再現実験をするときに、交絡因子の値が変化していれば、再現性はなくなります。

これが、ＲＣＴが必要な理由ですが、この点が、ほとんど理解されていません。

パールの「因果推論の科学」によれば、この２つは、統計学の教育の失敗に原因があると考えられます。

たとえば、相関と因果の違いについて、多くの統計学の教科書では、ヒルの基準が採用されています。

ヒルの基準は、いくら読んでも、理解できない代物ですが、教科書が間違っていると自信をもって言える学生はいません。教師もヒルの基準が間違っているとは言いません。

パールは、ヒルの基準には、相関と因果を区別するためには、「正確には何をする必要があるか」は、（かかれていないので）、「個々の科学者が自分で判断するしかない」といいます。（「因果推論の科学」、p.277）

しかし、パール以上に、ヒルの基準は、実際には、役にたたないと言っている人はいません。