エビデンスの何が問題か(3)

5)エビデンスの階層

 

エビデンスの何が問題か(1)」で、次のように書きました。

それでは、「専門家のエビデンスに基づく意見」は、(「表1 エビデンスの階層」の)どこに入るのでしょうか。

 

「表1 エビデンスの階層」を再度掲載します。

 

表1 エビデンスの階層

 

階層  内容

 

EBL4 メタアナリシス

EBL3 RCT(ランダム化比較試験)

EBL2 観察研究

EBL1 個人の経験談・専門家のエビデンスに基づかない意見

 

6)メタアナリシス

 

エビデンスの階層の一番上の「EBL4 メタアナリシス」は、複数の論文をまとめる作業です。

 

これは、例えば、論文Aでは、1000サンプルを調査して、論文Bでは、500サンプルを調査した場合に、2本の論文を合わせて、1500サンプルの結果を推定するような、手順を指します。論文には、普通、元のデータは掲載されず、平均と標準偏差といった統計値が記載されています。この2本の論文の統計値から、1500サンプルの統計値を推定する手順が、メタアナリシスになります。

 

疫学であれば、論文Aは、新薬Xに、治癒効果があるといい、論文Bは、新薬Xに、治癒効果がないと言うことがあります。こうした場合に、結局のところ、どちらが正しいのかという判定がメタアナリシスになります。

 

これは、例えば、円安は、経済にプラスか、マイナスかといった議論にも通じます。

 

円安は、経済にプラスか、マイナスかといった議論が収束しない理由には、メタアナリシスができる経済学者がいないからであると理解することもできます。

 

エビデンスの階層の一番上の「EBL4 メタアナリシス」は、複数の論文をまとめる作業で、その前提は、エビデンスに基づく論文がある場合です。なので、メタアナリシスは、「エビデンスの何が問題か」という今回の検討からは、外すことができます。

 

7)エビデンスに基づく研究

 

「専門家のエビデンスに基づく意見」つまり、「エビデンスに基づく研究」は、「表1 エビデンスの階層」の、EBL3に相当します。

 

つまり、EBL3を、「RCT(ランダム化比較試験)」に限定することは不適切です。

 

エビデンスに基づく研究」の最初は、ガリレオの実験に基づく研究です。

実験では、「1つの変数だけを変化させて何が起こるかを調べ」ます。

 

1つの変数だけを変化させることは、介入と呼ばれます。

 

実験が実験室で行われる場合には、「1つの変数だけを変化させて何が起こるかを調べる」実験が可能です。

 

しかし、実験室の外に出ると、「1つの変数だけを変化させて何が起こるかを調べる」ことは困難です。

 

フィッシャーは農業試験場で、肥料などの効果を調べていました。農場(圃場)をブロックに分けて、肥料の投与量を変えて、収量を調べていました。

 

区画Aと区画Bに、同じ作物を栽培して、肥料の量を変えます。

 

単純に考えれば、この方法で、収量を調べれば、肥料の効果がわかります。

 

しかし、単純に考えることは間違いです。

 

仮に、区画Aと区画Bに同じ作物を栽培して、同じ量の肥料を与えたとします。

 

このとき、区画Aと区画Bの作物の収量は同じにはなりません。

 

区画Aと区画Bの水はけ、日照、肥料を投入する前の肥沃度がちがいます。

 

同じ作物を植えても、種のバラツキがあります。

 

その結果、区画Aと区画Bの作物の収量は同じにはなりません。

 

肥料の試験では、介入は、肥料の量の違いです。

 

水はけ、日照、肥料を投入する前の肥沃度、種のバラツキは、介入以外の要素になります。

 

肥料の量を変えて、収量を調べて、収量の違いを計測したと仮定します。

 

その場合には、次の式が成り立ちます。

 

収量の違い = 介入(肥料の差)の効果 + 介入以外の要素の効果

 

この場合の「介入以外の要素」は、交絡因子と呼ばれます。

 

RCTは、交絡因子の効果をゼロにちかづける方法です。

 

RCT程、完全ではありませんが、交絡因子の効果をゼロにちかづける方法は他にもあります。

 

例えば、川に橋をかける場合、竣工の直前と直後の交通をしらべれば、その違いは、橋をかけるという介入の効果である確率が高いと思われます。

 

ちょうど橋をかけるときに、リーマンショックパンデミック地震などが起こった場合には、交通の違いは、橋の効果、リーマンショックの効果、パンデミックの効果、地震の効果のいずれか、わかりません。なので、介入の前後を調べる方法には、弱点があります。

 

しかし、橋をかけた時に、他のイベントが偶然重なる確率は、低いです。

 

現在の事業評価では、橋をかけた5年後や10年後に交通量を調べ、交通量があれば、橋の経済効果があると判定しています。

 

橋をかけた時から5年後や10年後の間に、他のイベントが偶然重なる確率は、きわめて高いです。

 

例えば、過疎地域では、人口が減っているので、10年経つと、交通量が減ります。

 

橋の経済効果は小さくなります。しかし、その原因は、橋をかけたこと(事業)にはありません。

 

つまり、事業評価は、「エビデンスに基づく政策」ではなく、「政策に基づくエビデンス作成」になっています。

 

事業評価のマニュアルを書いた官僚や専門家には、統計学のメンタルモデルがなかったといえます。

 

事業評価は、統計学のメンタルモデルでみれば、無駄な作業になります。

 

2024年時点で、道路の建設には、費用対便益の値が、1を越すように、費用対便益の値を補正しています。

 

これは、建設時点で、従来の基準であれば、利用が見込まれない道路や橋を建設してもよいというお墨付きになっています。経済学で考えれば、これは、経済成長の足枷になっています。

 

まとめると、エビデンスとは、介入の効果をしめす計測値になります。

 

エビデンスには、交絡因子の効果が除かれている必要があります。

 

ルービン流の因果モデルでは、介入なしに、交絡因子の効果を取り除くことができると考える場合があります。

 

筆者には、それは、無理に思われます。

 

パール流の因果モデルでは、介入によって、交絡因子の効果を取り除きます。

 

一部の例外として、介入なしの観察だけでも、交絡因子の効果を取り除ける場合があることがわかっています。

 

しかし、これは例外であって、パール流の因果モデルでは、介入時の測定値を使って、因果モデルを作成します。

 

つまり、政策効果を実証するエビデンスとは、介入(新しい政策の実施)時の測定値(do演算子)が、エビデンスの計算の始まりになります。

 

最後に、表1を訂正しておきます。

 

表1 エビデンスの階層

 

階層  内容

 

EBL4 メタアナリシス

EBL3 エビデンスに基づく研究

EBL2 観察研究

EBL1 個人の経験談・専門家のエビデンスに基づかない意見