「因果推論の科学」をめぐって(61)

注:これは、ジューディア・パール、ダナ・マッケンジー「因果推論の科学―「なぜ?」の問いにどう答えるか」のコメントです。

 

(61)ニートとスクラフィー

 

1)用語の定義

 

パール先生はいいます。

(1980年)当時、AI研究者は、「ニート」(きちんとした人の意)と「スクラフィー」(適当な人の意)の二派に分かれていた。前者は、動作の保証された透明性のあるシステムを作るべきと考える人たちで、後者は、とにかく、動くシステムが出来ればいいと考えるひとたちである。私は常にニートに属する研究者だった。(中略)

 

(アルファ碁のような)ディープラーニングには、透明性がまったくない。(中略)

 

透明性は、必ずしも必要ないと主張する人(スクラフィー)もいる。私たちは人間の脳がどう機能しているのかを詳しく理解していないが、それでも一応、脳はうまく機能しているし、私たちは自分の脳についてよく知らないことをさほど気にしていない。だからディープラーニングシステムのことを知らなくても問題はないのではないか、どう機能しているかわからない知性がまた一つ新たにうまれたというだけだ、というのである。この主張が間違っているというつもりはない。現時点では、スクラフィーがニートより優位に立っているということだろう。だが、私は、個人的には不透明なシステムが好きになれない。だからその方向での研究をする気はない。

>(pp.544-545)

 

ニートとスクラフィーの用語の定義は、この通りです。

 

しかし、この用語は、ディープラーニングに関係して使われています。



2)ディープラーニング

 

パール先生はいいます。

十分に賢くデータマイニングを行いさえすれば、データそのものの中に、(私たちの因果推論の問いへの答えが)必ずみつかるはずだと考える人たちもいる。それはもはや宗教的な信念といってもいいほどだ。しかし、本書をここまで読んだ読者であれば、その信念がまったく見当違いの誤りだとわかるであろう。

 

因果推論のゴールドスタンダードは、RCTです。RCTのデータは、他の方法で取得したデータとは違います。しかし、その違いは、数字だけ見てもわかりません。

 

「因果推論の科学」では、do演算子をつかって、観察で得られたデータと、介入で得られたデータを区別します。

 

オブジェクト指向プログラミングで考えれば、データの属性値に、「データ.観察」と「データ.介入」をつけるイメージです。

 

因果ダイアグラムとdo演算子を使う理由は、データの属性値では、因果のコネクションと矢印の向きが表現されないためと思われます。

 

逆にいえば、因果モデルの式が出来ている場合には、データの属性値だけでもなんとかなります。

 

もちろん、この因果モデルの式が、エスティマンドと同じレベルに達しているかについては、直観にたよっていることになります。

 

パール先生は、因果推論の階段を「関連付け、介入、反事実」に分けました。

 

介入レベルの問題であれば、データの属性値でも、対応できそうです。

 

do演算子は、介入を演算として表現しています。

 

介入をデータ属性値で表現することも可能な気もします。

 

すくなくとも、RCTでは、RCTで得られたデータというデータの属性値の扱いがなされています。



介入を属性値としても扱えるというアイデアの裏返しは、計測器は、属性値のデータを付与できないという事実です。

 

パール先生は、「データそのものの中に、因果推論の問いへの答えが必ずみつかるはず」というデータ中心主義に反対です。

 

しかし、データに介入属性のような属性を付加できれば、現在のデータマイニングよりはマシになるはずです。

 

問題は、この介入属性は、人間が判断して添付するしか方法がないという事実です。今のところ、自動的に添付するアルゴリズムはありません。



3)2つのまとめ

 

まとめに入ります。

 

第1は、ニートとスクラフィーの問題です。

 

AI研究者は、動作の保証された透明性のあるシステムを作るべきと考えるニートと、とにかく、動くシステムが出来ればいいと考えるスクラフィーに分かれていました。

 

ディープラーニングが、スクラフィーであるという主張の根拠は、あつかうデータに、因果関係の属性が含まれていないことに由来します。

 

データに、因果関係の属性データが含まれていれば、不完全かも知れませんが、ディープラーニングで因果推論ができる可能性があります。

 

因果推論の属性値は、現状では、RCTを使ってというデータのコンテナに付けられたラベル以外の表示はありません。

 

パール先生の言葉が無ければ考えられないという主張の言葉(因果推論の属性値)がない訳です。

 

パール先生は、「データに、因果推論の属性値がふくまれなければ、因果推論はできない」と主張します。

 

この主張は、思考実験(哲学)になっていて、実験的には、実証できません。

 

「データに、因果推論の属性値がふくまれなければ、因果推論はできない」という主張は、ニートの主張ですが、ニートか、スクラフィーかの区分は、思考実験のレベルの問題です。

 

日本では、異常なまでの帰納法信仰があり、演繹法を中心とした思考実験は、行なわれませんので、ニートか、スクラフィーかの区分はない、あるいは、ニートはいないと思います。

 

「因果推論の科学」の「データに、因果推論の属性値がふくまれなければ、因果推論はできない」という主張は、思考実験の結論ですので、思考実験を可能にするメンタルモデルの共有ができていない人には、理解ができなくなります。

 

「因果推論の科学」には、「データに、因果推論の属性値が含まれなければ、因果推論はできない」という主張の検証事例はのっていません。

 

第2は、介入の問題です。

 

一部のデータについては、観察と介入の属性値を付与することは可能です。

 

政府が、円ドルレートに介入した場合、キャリートレードが発生した場合などに、ついては、属性値のデータを付与することができます。

 

株価についても、日銀がEFTを通じて介入した場合については、属性値をつけることが可能です。

 

例えば、ある企業の株価が、日銀の株式購入によって上がったとします。日銀は、いつか、株式を売るので、その時点で、株価が下がります。この株価の減少を見越して、株価が下がる前に売り逃げする株主も考えられます。こう考えると、企業が日銀の株を購入して、株価があがっても、よいことばかりではないことがわかります。

 

文部科学省は、探究の学習を推奨しています。探究の学習とは、生徒が介入しないと学習効率が著しく落ちることを意味します。これから、探究の学習の効果を検証するためには、介入の属性のデータを保存する必要があります。

 

このような推論が可能になる理由は、筆者の頭の中に、観察と介入のメンタルモデルがあるからです。

 

メンタルモデルのない人に、介入を理解させることはできません。

 

バカの壁」のように、メンタルモデルがないと、推論ができず、考えられません。