注:これは、ジューディア・パール、ダナ・マッケンジー「因果推論の科学―「なぜ?」の問いにどう答えるか」のコメントです。
(13)交絡条件
回帰は、相関係数を計算するだけで、因果関係ではありません。
ただし、用語としては、回帰の用語が普及しているので、以下では、回帰の用語を使って説明します。
今回は、用語の復習です。
1)回帰の基本
回帰は、目的変数y(結果に相当)と説明変数x(原因に相当)の間の線形モデルです。説明変数の数は任意ですが、説明変数の数を増やすと、データに十分な精度がないと、まともなモデルが求まりません。このため説明変数の数は必要最小限にします。
多くの場合、説明変数の数は2つか3つで足ります。
以下では、説明変数が、x1、x2、x3の3つの場合を考えます。
ここで、x1が原因である場合を検討します。
x1以外のその他の変数をzで区別します。
つまり、z={x2,x3}
交絡の定義(p.232)
ある処理をした時の条件付き各利率をP(y|x1)とします。
介入確率は、P(y|do(x1))です。
この2つの値が一致しない場合に、不一致を引き起こすものを交絡と定義します。
ここで、zは交絡の候補になります。
しかし、例えば、x4のようなモデル化では無視されているが、yに影響を与える変数が隠れていた場合には、そのような変数も、交絡の候補になります。
RCTを使えば、理論上は、このような隠れた交絡変数の影響も補正されるという建前になっています。これは、データが非常に多数得られる場合です。
現実問題として、精度高いデータを得るには、コストがかかるので、高精度のデータを少し得るのか、低精度のデータを多数えるのかという選択問題があります。
単純なRCTが、この問題に対する答えをもっていません。
さて、話を単純にして、以下では、x4のような隠れ変数の問題がないと仮定します。
このときの交絡変数の候補は、x2とx3になります。
同様に、x2が介入する変数の場合には、x1とx3が、交絡変数の候補になります。
2)感度
説明変数が3つのモデルで、説明変数を変化させた時の、目的変数の変化量を感度と呼びます。
重回帰モデルであれば、偏回帰係数は感度を表わすことになります。
3)喫煙と肺がんの例
喫煙と肺がんの例では、結果(目的変数)は、肺がんの発生確率になります。
説明変数は、喫煙と喫煙遺伝子になります。
原因が、喫煙である場合には、喫煙遺伝子が交絡因子になります。
原因が、喫煙遺伝子である場合には、喫煙が交絡因子になります。
喫煙は、肺がんのリスクを10倍以上に高めます。
喫煙遺伝子は、肺がんのリスクを2倍未満に高めます。(p.517)
4)実務上の問題
今回は、特に難しい点はありません。
問題は、交絡因子と感度が実務上では、完全に無視されていることです。
少子化対策や、過疎対策などの政策の効果では、交絡因子を考えて、感度を算出する必要があります。
公共事業の効果を評価するには、肺がんと同じように、感度の算出が必要です。
霞が関が作成して、自治体に配布している事業評価のマニュアルは、統計学では間違いになります。
霞が関には、権威があるかも知れませんが、科学的に間違ったマニュアルが使われていることは問題です。統計学が必修のアメリカであれば、高校生でも気付くレベルの間違いです。