Appleの論文とゲーリー・マーカス

ゲーリー・マーカス(Gary Marcus)氏は、「因果推論の科学」(p.54)に、登場します。

マーカスは最近、ニューヨークタイムズ紙に、「人工知能の分野では、良いプレスリリースが書けそうな小さな発見が相次いでいる。だが、作られる機械はどれも失望するものばかりで、どれも人間並みの認知からは程遠い」と書いた。

 

パールが引用している、ニューヨークタイムズ紙の記事は、不明ですが、「因果推論の科学」は、2018年の出版なので、それ以前の記事になります。

 

つまり、マーカス氏のこの発言は、LLMの流行以前のAIを指しています。

 

それでは、マーカス氏は、現在のAIをどのように評価しているのでしょうか。

 

今月、アップルは、次の論文を公表しました。

<<

paper | published June 2025

The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

AuthorsParshin Shojaee*†, Iman Mirzadeh*, Keivan Alizadeh, Maxwell Horton, Samy Bengio, Mehrdad Farajtabar

https://machinelearning.apple.com/research/illusion-of-thinking

>>

 

きょん氏が、日本語の解説記事を書いているので、手っとリはやく、概要を理解することができます。

 

<<

「考える」ことの幻想:AIの思考は本当に思考なのか? 2025/06/09 Zenn きょん

https://zenn.dev/kimkiyong/articles/c473ce091cba7c

>>

 

ゲイリー・マーカス氏は、アップルのこの論文について、発言しています。

 

<<

LLMにとってのノックアウト打撃か? 2025/06/08 ゲイリー・マーカス

https://garymarcus.substack.com/p/a-knockout-blow-for-llms

>>

 

その一部を引用します。

Apple が新しい論文を発表しました。これは LLM にとって非常に衝撃的な内容で、昨年同じ著者の多くが発表した論文の強力な続編となっています。

 

これは私が 1998 年以来主張し続けている訓練分布の議論を反響させ、さらに強化するものです。つまり、さまざまな種類のニューラル ネットワークは、それらがさらされる訓練データの分布内では一般化できるが、その分布の外では一般化が崩れる傾向がある、ということです。これが、現在の LLM の祖先である多層パーセプトロンを批判した私の 1998 年の論文の核心であり、単純な計算と文章予測タスクにおける分布外の失敗を示した2001 年の私の最初の著書 ( The Algebraic Mind )の核心でもありました。この論文では同じことをより広い意味で行い、私の最初のScience論文 (1999 年の実験で、当時の標準的なニューラル ネットワークでは不可能だった方法で 7 か月齢の乳児が外挿できることを実証した) の中心的テーマでした。これはまた、私の2018年の著書Deep Learning: Critical Appraisalと 2022年の著書Deep Learning is Hitting a Wallの中心的な動機でした。昨年、私はここで、法学修士課程における最も重要な、そして理解することが重要な弱点として、この点を特に取り上げました。(お分かりの通り、私はもうしばらくこの問題に取り組んでいます。)

 

一方で、アリゾナ州立大学のコンピュータ科学者、スバラオ(ラオ)・カンバムパティ(Subbarao (Rao) Kambhampati)氏が数年前から主張してきた、いわゆる「思考の連鎖」(chain of thought)や「推論モデル」(reasoning models)、そしてそれらの「推論の痕跡」(reasoning traces)が期待されているほどではないという主張を、この論文は反響させ、さらに増幅させています。「思考の連鎖」とは(大まかに言えば)システムが複数のステップを踏んで「推論」して答えに至る過程を指します。一方、「推論モデル」とは、「推論時間計算」(inference-time compute)と呼ばれる手法を用いて、LLMに時間をかけながら「推論」させることで、LLM固有の限界を克服しようとする最新世代の試みです。(常連読者なら、サティア・ナデラ氏が11月に純粋な事前学習によるスケーリング(私の深層学習は「壁を叩く」という仮説に対する批判に対処した)に関して譲歩の旗を振った際、推論時間計算のための新たなスケーリング則を発見できるかもしれないと示唆したことを覚えているでしょう。)

 

ラオ氏は、一連の巧みな論文を書いて、LLM が生み出す思考の連鎖が必ずしも実際の動作と対応していないことなどを示してきました。例えば最近、彼は、人々が LLM の推論の痕跡を過度に擬人化しがちで、その名に値しないものを「思考」と呼んでいると指摘しました。また、彼の最近の論文の 1 つでは、推論の痕跡が正しく見えても、最終的な答えがそうでない場合があることが示されています。ラオ氏はまた、 Apple が文書化しているような種類の問題を「推論モデル」、つまり o1 が抱えていることをおそらく初めて示し、最終的に最初の研究をこちらでオンラインで公開し、その後の研究をこちらで公開しました。

Appleの新しい論文は、最新の「推論モデル」でさえ、たとえo1を超えてスケ​​ーリングしたとしても、ハノイの塔のような多くの古典的な問題では、分布を超えて確実に推論できないことを示しており、Raoの批判(そして私自身の批判)の説得力を増しています。「推論」または「推論時間計算」によってLLMが軌道に戻り、純粋なスケーリングを実現してGPT-5の名にふさわしいものを得るまでの何度も失敗した苦労がなくなることを期待している人にとっては、これは悪いニュースです。

ということで、マーカス氏の意見は、2018年から変わっていません。

さまざまな種類のニューラル ネットワークは、それらがさらされる訓練データの分布内では一般化できるが、その分布の外では一般化が崩れる傾向がある

訓練データの分布の外側でも因果モデルは有効です。因果ダイアグラムのロバストネス(因果推論の科学、p.78)あるいは因果モデルの順応性(adaptability)(因果推論の科学、p.35-36)があります。

ララどり氏は、マーカス氏の立場を解説しているので、一部を引用します。

<<

なぜゲイリー・マーカスはAGI早期実現に否定的なのか 2024/07/05 note ララどり

https://note.com/singularbell45/n/na907d3976a5a

>>

 

2022年3月10日、マーカス氏は「Deep Learning Is Hitting a Wall」というタイトルの記事を公開した。

 

マーカス氏は記事の前半で、ディープラーニングが壁にぶつかっている証拠を並べ立てる。ディープラーニングは、基本的にパターンを認識するための技術であり、荒削りな結果が必要な場合に有効であるが、愚かなエラーに頻繁に陥るというのだ。

 

・2016年にトロントで行われたAI会議で、ディープラーニングの父であるジェフリー・ヒントンが、「5年以内にはディープラーニング放射線科医よりも優れていることが完全に明らかだ」と述べた。しかし、2022年現在一人の放射線科医も置き換えられていない。

 

AIの歴史を語るうえで欠かすことができない2種類の技術が存在する。「記号操作」と「ニューラルネットワーク」である。

 

ディープラーニングでは、AGI(Artificial General Intelligence、人工汎用知能)が実現できない理由は、記号操作を無視しているからだ。マーカス氏は、ディープラーニングと記号操作のハイブリッドモデルこそAGIの実現に必要であると考えている。

 

2020年2月14日に、55ページに及ぶ論文「The Next Decade in AI: Four Steps Towards Robust Artificial Intelligence」を発表している。

 

この論文の最大の主張は、AIが頑健な知能を持つには、内部の認知モデルを作る必要があるということだ。人間を含む生き物は、外の世界から情報を受け取り、それを基に頭の中でモデルを作る。そして、そのモデルを使って判断する。このモデルには、世界にある様々なものとその特徴、そしてそれらの関係についての情報が含まれる。AIも同じように、外の世界の詳しく構造化された内部モデルを持ち、それを使って考え、世界とその変化に関する豊富な知識を活用する必要があるのだ。

ポイントは2つあります。

 

第1は、ハイブリッドモデルです。

 

パールの因果推論の科学は、「記号操作」に相当します。因果推論の科学は、かなり発展してきましたが、まだ、解けていない問題もあります。

 

ハイブリッドモデルの構築には、もう少し時間がかかります。

 

「記号操作」は、ベイジアンネットワークと見なすことも可能です。その場合には、ベイジアンネットワークとディープラーニングのハイブリッドモデルになります。

 

しかし、この解釈には、無理があります。理由は後ほどのべます。

 

第2は、「内部の認知モデル」です。これは、「因果推論の科学」のメンタルモデル、または、因果ダイアグラムに相当します。

 

ベイジアンのネットワークには、因果の矢印の向きがありません。

 

これが、ベイジアンネットワークとディープラーニングのハイブリッドモデルができない理由になります。

 

マーカス氏は、メンタルモデル仮説の支持者であることがわかります。

 

アップルは、LLMでは出遅れているという評価もあります。

 

Suriは、LLMに比べると賢くないという評価もあります。

 

アップルの論文の著書は、利害関係者なので、その分は、割り引いて読む必要があります。