1)ヒントン氏の話の要点
ヒントン先生の話の要点は、知のモデルが変化したということです。
OpenAI が大規模言語モデル GPT-4 は、知識量および推論能力が大きく向上して、米国の大学入試共通テストにあたるSATや弁護士試験など、多数の試験において受験者の上位10%内など人間を超える結果を得ています。
Few-shot learning で良い性能を達成するには、良い事前学習モデルと、良いプロンプトが必要です。
SATや弁護士試験では、試験問題が、プロンプトになっています。
つまり、知識の表現とは、プロンプトとそれに対するレスポンスのセットになります。
試験の成績はプロンプト(試験問題)の関数です。
「リーマンショックは、何年に起こりましたか」といった筆問であれば、簡単なマッチングで済みます。そこには、推論はありません。
試験が受験者の何を求めるかは、試験問題(プロンプト)によります。
知識とは、プロンプトを通じて得られるリアルタイムの情報のことです。
これは、インタビューを想像すれば理解できます。
優秀なインタビューアーになるためには、回答者の頭の中を想像して、的確な質問を設定することが必要になります。
大規模言語モデルは、プロンプトをもとに、はるかに複雑なマッチングを行います。その過程は人間の脳をモデルにした推論に相当します。
「リーマンショックは、何年に起こりましたか」といった単純なプロンプトでは、推論の性能をテストできません。
SATや弁護士試験では、もう少し複雑なプロンプトになっています。
プロンプトが複雑、あるいは、曖昧になると、正解の定義は曖昧になります。
論文試験の場合の採点基準は、かなり曖昧です。文法的な誤り、誤字のチェックは簡単ですが、その次は、論旨になります。論旨は、内容の正確さを評価しません。短い論文で、メリット、デメリットを列挙すると、趣旨が曖昧になり、減点されます。高いスコアを得る方法は、思いっきりバイナリーバイアスを聞かせて、対比で論ずることです。簡単に言えば、試験の答案は、嘘でよいですから、回答(正解)はあるという前提でまとめることになります。試験問題の模範回答とは、科学的に正しい回答をすることではなく、出題者の期待を満足する回答を作成することです。
これは、国語力以外の論文試験の可能性に疑問を生じます。
2)大学入試共通テストの論文採点
大学入試共通テストで、論文の自動採点の検討が進められていますが、自動採点の精度が悪いため、自動採点は見送られています。
自動採点の精度の情報は非公開で、詳細は不明です。
評価基準を採点のバラツキにとると合、3つの場合がありえます。
ここで、採点の第1のバラツキとは、同じ答案を100人の人間が採点するか、100種類のAIが採点する場合を考えます。100種類のAIを準備することが難かしければ、答案にノイズを加えることで類似の検討が可能です。
採点の第2のバラツキは、100人の答案を同じ人、あるいは、同じAIが採点した場合のバラツキです。第2のバラツキでは、100人の抽出にバイアスがなければ、点数のヒストグラムが、正規分布に近くなることが期待されます。実際に、人間が、採点すると、同点が多い場合いは、点数を補正する必要があり、この調整は容易ではありませんが、AIであれば、点数補正は瞬時に行えます。
以下では、第1のバラツキを例に考えます。
(R1)人間の採点より、自動採点の方がばらつきが大きい。
(R2)人間の採点と、自動採点の方がばらつきは同じレベルである。
(R3)人間の採点より、自動採点の方がばらつきが小さい。
2023年の生成AIの性能をみると、(R3)になっている可能性が高いです。しかし、(R3)を認めることは、それまでの論文試験の採点の客観性に疑問を与えることになります。
つまり、(R3)が、公開される場合には、事前調整後になる可能性が高いです。
AIが進歩していることを考えると(R2)は、成立しても、瞬時です。
(R3)の性能を落として、(R2)に合わせることは可能ですが、余り意味はないと思われます。
大学入試共通テストで、論文の自動採点の検討方法とその結果が公開されていませんので、以上は、予測ですが、当面、自動採点は、なさそうです。
3)推論と単純マッチング
生成AIは、間違ったことをいうので問題であると言われます。
一方、ヒントン氏は、間違っているか否かは大きな問題ではないと言います。
この問題を考えてみます。
生成AIは、プロンプトと持っている知識から、推論を行います。この推論は、学習の結果を反映しています。学習の結果は、ノードの重みに反映され、確率に反映されます。
ここで大切なことは、生成AIは、推論ができるということです。
一方、「生成AIは、間違ったことをいう」という人の正解は、推論によって得られたものでしょうか。筆者は、そうではないと思います。
例えば、2008年の経済状況から、2009年にリーマンショックのような経済破綻がおこるかを推論します。この推論は、当たることもありますし、外れることもあります。
2009年にリーマンショックが起こったという事実を知識として知っている人は、生成AIが間違えたことは、問題であるといいます。
しかし、批判する人は、「2008年の経済状況から、2009年にリーマンショックのような経済破綻がおこるかを推論」していないと思います。
生成AIに、アメリカ、中国、日本の今後の経済状況について問い合わせれば、それなりの回答をしてくれます。
その回答は、「2009年にリーマンショックが起こったという事実を知識として知っていて、生成AIが間違えたことは、問題である」という人の回答よりマシでしょう。
少なくとも、日本政府は、経済破綻のリスクについては、口を閉ざしています。
占い師ではありませんので、将来の予測をすれば、必ず外れることが起こります。
だからといって、天気予報の降水のような確率予測に価値がない訳ではありません。
教育において暗記の価値は激減しています。スマホがあれば、かなりのことは調べられます。生成AIも、出典付で、情報を提示します。
エンジニアの基本的なスキルは、データサイエンスを含む数学とITです。
かって人文科学の基本的なスキルは、語学でした。現時点では、基準になる言語は英語なので、英語を習得しなければ、前に進みませんが、それ以外の言語のスキルのウェイトは下がっていると思います。
教育において暗記をやめて、考える力をつけるべきという主張があります。
これには、3つの問題があります。
(P1)第1に、考える力とは間違いを許容することです。正解のない問題では、結果が確実に正しい推論はありえません。この点では、「生成AIが間違えたことは、問題である」という主張は考えることを軽視しています。つまり、「考える力をつけるべきという主張」のは表面的な主張で、浸透していません。
(P2)第2に、現在では、エビデンスベースのように科学的に正しく考える手法が、明確になっています。その方法は、手順の正統性を主張するものであって、結果の正しさを保証しませんが、科学的には、ベストの思考ルールです。ここでは、形而上学は否定されています。
(P3)第3に、推論は手段であって、目的ではありません。
もう一度繰り返しますが、「知のモデルが変化」しています。
日本の社会は、伝統技術や職人技には価値があるなど、「知のモデルの変化」をかたくなに拒否しています。
大切なことは、目的であって、手段ではありません。生成AIが、ある程度間違えても、生産性は、人間の10倍を越えていますので、速く効率的にゴールに到着出来れは、問題ではありません。