「因果推論の科学」をめぐって（６２）

注：これは、ジューディア・パール、ダナ・マッケンジー「因果推論の科学―「なぜ？」の問いにどう答えるか」のコメントです。

（６２）因果革命とAI予測

パール先生の「因果推論の科学」の第10章は、「因果革命とAIの関わり」を解説しています。

「因果推論の科学」の原著は、2018年の出版です。「はじめに」の執筆日付は、2017年10月になっていますので、「因果推論の科学」は、2017年までのデータを反映しています。

ここでは、7年経って、第10章の内容は古くなったか、訂正すべき点があるかを考えます。

「因果推論の科学」には、アルファ碁や、デープラーニングによる画像認識は、データに使われていますが、2022年にヒットした大規模言語モデル（生成AI）のデータははいっていません。

アップルは2024年9月９日、自社の生成ＡＩ（人工知能）機能「アップルインテリジェンス」に対応したｉＰｈｏｎｅ１６シリーズを発表しました。

これで、GAFAMは全て、生成AIに対応したことになります。

生成AIには、大規模な投資が行なわれて、NVIDEAの株価が上昇しましたが、2024年8月には、NVIDEAの株価は頭打ちになりました。

アップルも、ｉＰｈｏｎｅ１６シリーズを発表して、株価が下がっています。

OpenAIは、2024年9月12日（現地時間）、複雑な推論が可能な思考プロセスに長けたモデルとして新しいAIモデル「OpenAI o1」シリーズを発表しました。

「OpenAI o1」は、スケール則に従わないモデルです。

米グーグル出身の研究者らが設立した生成AI（人工知能）開発の新興企業「サカナAI」（東京）は2024年9月17日、金融などの国内大手10社（三菱UFJフィナンシャル・グループ、三井住友銀行、みずほフィナンシャルグループ、野村ホールディングス、SBIホールディングス、第一生命保険、NEC、富士通、伊藤忠商事、KDDI）から出資を受けたと発表しました。

2024年9月公表した米半導体大手エヌビディアなどを含めた一連の出資は総額300億円規模になります。

「サカナAI」も、スケール則に従わないモデルです。

スケール則に従わないモデルの実態はよくわかりません。

情報が明らかになるまでには、もう少し時間がかかると思いますので、以下では、スケール則に従わない「OpenAI o1」と「サカナAI」を除いて、検討します。

生成ＡＩは、日本では、東京大学の松尾研究室が中心になって研究を進めています。

松尾氏は、「因果推論の科学」に、解説を寄稿しています。

松尾氏は、データサイエンスのアプローチをとっています。

データサイエンスのアプローチは、パール先生の区分では、スクラフィーになり、理論よりも、実践（データ）を優先します。

パール先生は、理論優先のニートです。パール先生は、因果推論は、データサイエンス（データ中心主義）に優ると考えます。

「因果推論の科学」（p.41）でパール先生は次のようにいいます。

＜

本書で私が読者に伝えたいことをごく簡単にまとめると、「人間はデータよりも賢い」ということになるだろう。

＞

パール先生は、この主張の根拠を明示していませんが、根拠は恐らく、思考実験（哲学、プラグマティズム）にあると思われます。

問題に答えるには、第10章と、生成ＡＩを比べる必要があります。「生成ＡＩとは何か」は筆者の手にあまります。そこで、ここでは、松尾研究室の今井翔太氏の＜「生成ＡＩ」で世界はこう変わる＞（2024年１月）を、生成ＡＩの基準にします。

今井翔太氏はスクラフィーで、推論は、生成ＡＩの過去のデータをベーコン流の帰納法で分析しています。

パール先生は、ＡＩは、因果推論の反事実の問いに答えることができないと考えています。

筆者は、生成ＡＩも、アルファ碁や、デープラーニングによる画像認識と同じように、パターンマッチングであると考えています。

これは、反事実ではなく、事実の中から、解答や、解答の一部を見つけて、再構成して答えをつくる方法です。反事実や、事実と事実を繋げる因果関係は、観測できないので、生成ＡＩが扱うことはできません。

生成ＡＩは、弁護士や医師の試験で高いスコアを出しています。このことから、弁護士や医師の試験問題の大半は、因果推論を問うものではなく、パターンマッチングを問うものであることがわかります。

生成ＡＩは、人間にくらべれば、桁違いのデータをマッチングにつかうことができます。

いままで、言語化が困難で、ほとんど処理ができなかった画像、音などのデータも、コンピュータは簡単に処理できます。

問題は、AIが人間に追いつくことではありません。

原理的に、人間がＡＩに勝てない分野があります。

猫の画像を学習するために、ＡＩは、数百万枚の画像データを処理します。

人間が、数百万枚の画像データを処理すれば、恐らく、途中で、過労で死んでしまいます。

自動車と競走するマラソンランナーは正気はありません。

しかし、政府は、生成ＡＩは間違えるので、使用を制限して、人間が引き続き仕事を続けるべきであるといいます。

自動運転車は危険なので、人間のドライバーの代りにはならないといいます。

筆者には、政府の主張は、自動車と競走しても、マラソンランナーは勝てるといっているように聞こえます。

マラソンランナーが、自動車と競走しないための判定基準は２つあります。

第1は、エンジンの馬力のように、スペックの差が大きい時には、勝負をしない方法です。

第2は、実際に、比較試験をして、判定する方法です。

科学の方法は、第2の方法になりますが、余りにも、スペックの差が大きい場合には、実験をするまでもないので、第1の方法で十分です。

これ以外の方法には、科学的な根拠がありません。

パール先生は、第1の方法で、因果推論の科学が、データサイエンス（データ中心主義）に勝てると考えています。

この部分の第10章の主張は、7年経っても、修正の必要性はありません。

2023年春に、ChatGPTが出てきたときには、生成ＡＩには勢いがありましたが、2024年9月現在では、投資家の反応は醒めています。

ディープラーニングの画像認識も、出だしから、2年程度で、高い水準ではありますが、進歩は頭打ちになりました。

生成ＡＩは、スケール則で、性能を拡大しましたが、スケール則だのみの改善には限界があるようにも見えます。

パール先生は、スクラフィーの方法では、改善速度が予測不可能で、問題が生じると主張しました。筆者には、現在の生成ＡＩは、その段階になっているようにみえます。

一方、第2の方法では、「因果推論の科学」で想定していないことが起こりました。

この分析は、困難なので、ここでは、結果だけを述べます。

チューリングテストで、生成ＡＩは、人間の70％くらいのスコアを出しています。

「因果推論の科学」（p.64）では、パール先生はいいます。

＜

4人いる審査員のすべてに人間だと思われたプログラムに賞を与えるロブナー賞の競技会が始まってから25年たった2015年の時点では、全員どころか審査員の半分も騙せたプログラムはない。

＞

2019年の最終コンテストでは形式が変更され、審査員団は存在しなくなった。代わりに、チャットボットは一般の人によって審査され、人間の競技者は参加しなくなった。ロブナー賞は2020年時点で廃止されました。

ロブナー賞のコンテストの形式は、標準的なチューリングテストの形式です。各ラウンドで、人間の審査員がコンピュータプログラムと、コンピュータを介して人間と同時にテキストによる会話を行いました。審査員は、応答に基づいて、どちらが人間に似ているかを判断しようとしました。

しかし、質問の内容には問題があり、英語版のウィキペディアは、次のように批判しています。

＜

コンテスト参加者は理解力や知性を目指すのではなく、基本的なELIZAスタイルのトリックに頼ります。そして、成功した参加者は欺瞞と偽装が報われることに気づきます。

＞

生成ＡＩは、人間の70％くらいのスコアを出していますが、質問の内容に、因果推論が含まれていない可能性があります。

今回の、設問は以下でした。

＜

「因果推論の科学」が出版されて、7年経って、第10章の内容は古くなったか、訂正すべき点があるか。

＞

筆者は、ロブナー賞とチューリングテストの部分を除けば、訂正すべき内容はないと考えます。

パール先生は、因果推論のモデルの性能を評価するために、ミニ・チューリングテストを使っていますが、このテストは、因果推論のテストなので、修正の必要はありません。

パール先生は、パターンマチングの生成ＡＩではなく、因果推論ができる強いＡＩが実現可能であると考えています。

強いＡＩは、原理的に、人間の因果推論に優ります。

問題は、因果ダイアグラムの作成部分の自動化だけであると思われます。

現在の日本では、生成AIの議論をする人ばかりで、強いAIの話題はありません。

「因果推論の科学」の内容が、7年たっても、ほぼ修正の必要がないことは驚異的なことです。

スクラフィーとニートの差は大きいとも言えます。

強いAIのインパクトは、生成AIとは比較にならないくらい大きいのに、不思議なことです。