１）予想どおり

ヒントン氏の発言は日本のマスコミでは曲解される可能性が高いと思いましたが、最近の報道は、生成AIが、ダース・ベイダーみたいに語られています。

そこで、補足をしておきます。

２）ヒントン氏の理解

前回も引用したWill Douglas Heaven氏とヒントン氏の対談の一部を引用します。

＞

⼤規模⾔語モデルは、その名が⽰す通り、膨⼤な数のつながりを持つ⼤規模なニューラル・ネットワークで作られている。しかし、脳に⽐べればそれらは微々たるものだ。「私たちの脳には100兆個のつながりがあります」とヒントン氏は⾔う。「⼤規模⾔語モデルでは最⼤で5000億から1兆です。しかし、GPT-4は、1⼈の⼈間と⽐べるとその何百倍ものことを知っています。ですから、実は私たちよりもずっと優れた学習アルゴリズムを持っているのかもしれません」。

脳と⽐較すると、ニューラル・ネットワークは学習が苦⼿であると広く信じられている。学習させるためには膨⼤なデータとエネルギーが必要だからです。⼀⽅で脳は、ニューラル・ネットワークよりずっと少ないエネルギーで、新しいアイデアやスキルを素早く習得できます。

「⼈には何かの魔法があるようでした」とヒントン氏は語ります。「しかし、このような⼤規模⾔語モデルの1つを⽤いて何か新しいことをさせるように訓練すると、すぐにこの議論は破綻してしまいます。極めてすばやく新しいタスクを習得できますからね」。

ヒントン氏が話しているのは「Few-shot learning」のことです。⼤規模⾔語モデルのような事前学習済みのニューラル・ネットワークは、わずか数個の例を与えるだけで新しいことをするように訓練できます。たとえば、⼀部の⼤規模⾔語モデルは、直接そうするように学習させたことがなくても、⼀連の論理的な発⾔をつなぎ合わせて1つの意⾒を作れることにヒントン氏は触れています。

そうしたタスクの学習速度において、事前学習済みの⼤規模⾔語モデルと⼈間を⽐較

すると、⼈間の優位性は消えてしまうとヒントンは⾔います。

＞

ポイントは、2点です。

（S1）脳の100兆個のネットワークの100分の1の1兆個のネットワークしかないAIが人間を凌いでいる。これは恐らく、予想外だったと思われます。

（S2)「Few-shot learning」を使えば、AIは、人間より早く学習できる。

３）プロンプトエンジニア

kikagakuのGTP-3の解説で、「Few-shot learning」を見ておきます。（筆者の要約）

＞

GPT-3が卓越している点は大きく次の三点です。

学習データ量：GPT-3 は Common Crawl dataset を中心としたテキストコーパスを用いて学習します。使われたデータセットは約 5000 億トークンからなます。

パラメータ数：GPT-3 のパラメータ数は、1750 億です。前身の GPT-2 のパラメータ数が 15 億なので、100 倍以上のパラメータを持っていることになります。

学習方策：GPT-3 は、具体的なタスクに特化したパラメータ更新を行わずにさまざまなタスクを解決する方策として Few-shot learning という方法を採用しています。

タスクごとにパラメータ更新を行わないアイデア自体は GPT-3 以前からありましたが、GPT-3 はFew-shot learning によって、ファインチューニングに匹敵する性能を示しました。

ファインチューニング：タスクに対するモデルの初期値として、別のタスクによって事前に調整されたものを用いる手法です。あらかじめ行う学習を事前学習 (Pre-training) と呼び、事前学習されたモデルを別のタスクのために微調整することをファインチューニング (Fine-tuning) と呼びます。

Few-shot learning：取り組むタスクをプロンプトによって制御する手法です。この手法は、タスクを通じて共通のモデルを使用します。

GPT-3 で採用されている Few-shot learning には、ファインチューニングに相当する手続きが含まれません。つまり GPT-3 は、個別のタスクに特化したパラメータ更新を行うことなく、各タスクを解きます。

ファインチューニングで良い性能を達成するためには、良い事前学習モデルと、ファインチューニングのための高品質な学習データが必要になります。

Few-shot learning で良い性能を達成するには、良い事前学習モデルと、良いプロンプトが必要です。タスクの特性を的確に捉えた、簡潔なプロンプトを考案する必要があります。

しかし、どのようなプロンプトにすれば良い性能が得られるかは自明ではなく、試行錯誤が必要です。良いプロンプトのための試行錯誤はプロンプトデザイン (Prompt design) と呼ばれています。

＞

GPT-3.5が1,750億パラメータであるのに対し、GPT-4のパラメータ数は非公開ながら5,000億以上といわれており、文献によっては100兆とも記されています。

しかし、ヒントン氏の対談の「最⼤で5000億から1兆」が正解と思われます。

Few-shot learning で良い性能を達成するには、良いプロンプトが必要になります。

Forbesの記事は、次の発言を引用しています。

＞

「10年後には、世界の仕事の半分はプロンプトエンジニアリングの仕事になるだろう」と中国のAI大手バイドゥの共同創設者兼最高経営責任者（CEO）のロビン・リー氏は宣言した。「そしてプロンプトを書けない人は時代遅れになるでしょう」

＞

サム・ポトリッキオ氏は、Newsweekに次のように書いています。

＞

私は学生たちに、将来圧倒的なパフォーマンスを上げるためには「質問学」の博士号が必要だと繰り返し強調している。学生はAIに質の高い質問を投げかけ、今の自分の知識以上のことを学ぼうとする意欲が必要だ。

より高度な質問をすれば、それだけ大きな成果が手に入る。もしチャットGPTが知的作業に不可欠なツールになるのであれば、教育者は優れた「質問者」の育成に力を入れざるを得ない。それこそ将来の世界で必要とされるスキルだ。

＞

これは、Few-shot learningの性質上、キーとなるスキルです。

既に、「Prompt-Engineering-Guide」が出ていて、4月5日には、和訳も公開されています。

和訳の出だしは、以下です。

＞

Prompt Engineering Guide

プロンプトエンジニアリングは、言語モデル（LMs）を効率的に使用するためのプロンプトを開発および最適化する比較的新しい学問分野です。プロンプトエンジニアリングのスキルを身につけることで、大規模言語モデル（LLMs）の能力と限界をより理解することができます。

研究者は、プロンプトエンジニアリングを使用して、質問応答や算術推論などの一般的なおよび複雑なタスクのLLMsの能力を向上させます。開発者は、LLMsやその他のツールとのインタフェースとなる強固で効果的なプロンプトテクニックを設計するためにプロンプトエンジニアリングを使用します。

プロンプトエンジニアリングは、プロンプトの設計と開発に限らず、LLMsとのインタラクションおよび開発に役立つ幅広いスキルと技術を含みます。これは、LLMsとインタフェースすること、ビルドすること、能力を理解することに重要なスキルであり、LLMsの安全性を向上させたり、ドメイン知識や外部ツールを使用してLLMsの機能を拡張するためにプロンプトエンジニアリングを使用できます。

LLMsでの開発に高い関心があることから、この新しいプロンプトエンジニアリングガイドを作成しました。最新の論文、学習ガイド、モデル、講義、参考文献、新しいLLMの機能、およびプロンプトエンジニアリングに関連するツールがすべて含まれています。

＞

教育者は優れた「質問者」の育成は、既に始まっています。

引用文献

ジェフリー・ヒントン独白「深層学習の父」はなぜ、AIを恐れているのか？2023/05/08 MIT Technology Review Will Douglas Heaven

https://www.technologyreview.jp/s/306240/geoffrey-hinton-tells-us-why-hes-now-scared-of-the-tech-he-helped-build/

ChatGPT の基礎技術！GPT-3 と Few-shot learning 2023/03/18

https://blog.kikagaku.co.jp/chat-gpt-few-shot-learning

Few-shot Learning : 少ない画像データで学習する【前編】

https://tech.gmogshd.com/few-shot-learning/

Prompt Design & Engineering for GPT-3

https://www.youtube.com/watch?v=2ltOaInDD-s