成長と分配の経済学（８）～2030年のヒストリアンとビジョナリスト

（第４の科学パラダイムの出現の結果、古典的な経験的な科学の対象領域は狭まりつつあります）

１）グレイとヘイの科学パラダイム解釈

第4のパラダイムについて、ネットでは、かなり、曖昧な解釈が幅をきかせていますので、最初に、整理しておきます。

チューリング賞を受賞し、元マイクロソフトテクニカルフェローであるジム・グレイは、4つのパラダイムを通じて科学的発見の歴史的進化を特徴づけました。グレイは亡くなってしまったので、この仕事は、トニー・ヘイが引き継いでいます。このため、「グレイの第4のパラダイム」という名称と「ヘイの第4のパラダイム」という名称が併存していますが、内容は同じものです。ここでは、「ヘイの第4のパラダイム」という名称を主に使います。

ヘイは、自然科学のパラダイムを次の4段階に分けています。

(1)経験的な科学

Thousand years ago: science was empirical describing natural phenomena.

千年前：科学は自然現象の経験的な説明でした。

自然科学の起源は数千年前にさかのぼりますが、最初のパラダイムは、自然現象の直接観察に基づく純粋に経験的なものでした。このような観察には多くの規則性が見られますが、それを体系的に捉えたり表現したりする方法はありませんでした。

(2)理論的な科学

Last few hundred years:theoretical branch using models, generalizations.

過去数百年：モデルを使用した一般化した理論的分岐が発生しました。

第 2 のパラダイムである理論的な科学（Theoretical Science）は、17 世紀のニュートンの運動法則や 19 世紀のマクスウェルの電気力学の方程式のような、自然界の理論モデルによって特徴づけられたものです。経験的観察から帰納的に導き出されたこれらの方程式は、直接観測された状況よりもはるかに広い範囲に一般化することを可能にしました。

訳注：第2のパラダイムは、いわゆる科学革命に対応していると思われます。そう解釈すると、このパラダイムには、実験、仮説と検証の手続きを含みます。

(3)計算科学

Last few decades: a computational branch simulating complex phenomena.

過去数十年：複雑な現象をシミュレートする計算分岐ができました。

これらの方程式は、シンプルなシナリオでは解析的に解くことができましたが、より一般的なケースで解くことができるようになったのは、20 世紀にデジタルコンピュータが開発されてからであり、それが数値計算に基づく第 3 のパラダイムが生まれることにつながりました。

(4)データ集約型科学

Today: data exploration (eScience) unify theory, experiment, and simulation.

– Data captured by instruments or generated by simulator

– Processed by software

– Information/knowledge stored in computer

– Scientist analyzes database/ files using data management and statistics

今日：データ探索（eScience）は理論、実験、シミュレーションを統合します。

–機器によってキャプチャされた、またはシミュレータによって生成されたデータ

–ソフトウェアによる処理

–コンピュータに保存されている情報/知識

–科学者は、データ管理と統計を使用してデータベース/ファイルを分析します

eScience is where “IT meets scientists.”

eScienceは、「ITが科学者と出会う」場所です。

第４のパラダイムは、ヘイがいう「科学データの津波（A Tidal Wave of Scientific Data）」をうけたデータ集約型科学（Data intensive science、 Data-Intensive science）です。データのモデリングを中心とした手法です。

この手法に何を含むかは、解釈が分かれます。「 using data management and statistics」なので、統計的手法が含まれることは確かですが、「data management」は明確ではありません。

（５）まとめと課題

（５－１）因果律の課題

ヘイの議論では、因果律の問題はあまり意識されていないように思われます。

因果律にのらないモデルには、データ縮約や、ディープラーニングがあります。

21世紀の統計学では、統計的因果律が確立したことが目覚ましい成果ですが、その点には、あまり関心はないように見えます。

（５－２）補完と競合

ヘイは、これら 4 つのパラダイムは補完し合いながら共存しているといいます。

これは、微妙な表現です。

図1は、4つのパラダイムを筆者なりに、表したものです。「２：実験科学」は、「２：理論科学」にした方がよかったかもしれません。

図１の横軸は、時間で、縦軸は、科学の対象の複雑さを表します。

2000年前に、１：経験科学が出てきて、まずは、全ての対象は、経験科学の手法で検討されます。

500年前に、２：理論科学が出てきて、実験と数式化できる現象は方程式化が試みられます。

しかし、方程式のせられても、解が求まらない時代が50年くらい前まで続きます。

50年前に、コンピュータが使えるようになって、方程式に乗せられれば、数値解が求まるようになります。計算科学の出現です。

20年前に、第4の科学が出てきました。第4の科学は、データ集約型科学です。データ集約型科学は、手法であると同時に、データでもあります。第3のパラダイムまでは、科学は、真理を解明するものでしたが、第4のパラダイムは、真理を解明するものではなく、データと折り合いをつけて、データから最大限有益な情報を引き出して活用することを目指します。精度の良いデータが多量にあれば、範囲の狭い推定が可能ですが、精度の悪いデータで、量が少なければ、推論（モデル）自体が成り立ちません。推論（モデル）は、真理が決めるのではなく、データが決めます。

15年位前に、情報科学のある大家の先生が、データは十分にある、データの不足はないと講演会で話していました。

しかし、現在の日本は、第4の科学をするための圧倒的なデータ不足に直面しています。大家の先生は、立派な論文を多数書いていると思いますが、だからといって、科学の将来の見通しが当たるとは言えません。将来のことは、誰も、わかりませんので、見通しを誤るか否かは、大家であるか、ないかに関係しません。

さて、「 4 つのパラダイムは補完し合いながら共存」しているのですが、図１を見ればわかるように、経験科学のテリトリーは、次第に狭まっています。

図１では、第4の科学を静的に表していますが、第4の科学は、データ群、手法群なので、時系列で考えれば、次第に対象を拡大しています。

これは、言い換えれば、第4の科学の対象となる事象を、あえて経験科学で解くことには、合理性がないことを意味します。

なので、筆者は、「 4 つのパラダイムは補完し合いながら共存」とは、微妙な表現であると感じます。

（５－３）第5のパラダイム

2022年7月8日に、マイクロソフトは、AI4Science を設立しています。

マイクロソフトの説明は以下です。

—------

しかし、ここ 1、2 年の間に、科学的発見におけるスピードと精度のトレードオフを解決する強力なツールとして、ディープラーニング (深層学習) を活用する新しい方法が登場しています。これは、第 4 のパラダイムの特徴であるデータのモデリングとは全く異なるマシンラーニングの使い方です。なぜなら、ニューラルネットワークの学習に使われるデータ自体が、経験的な観察からではなく、科学の基礎方程式の数値解法から得られるものだからです。科学方程式の数値解法は、自然界のシミュレーターであり、高い計算コストをかけて、天気予報、銀河の衝突モデリング、核融合炉の設計最適化、薬剤候補分子の標的タンパク質への結合親和性計算などの用途に必要な量を計算するために使用することができる、と考えることができます。しかし、マシンラーニングの観点からは、シミュレーションの中間的な詳細を学習データと捉え、ディープラーニングエミュレータを学習させるために使用できると見なすことができます。このようなデータは完全にラベル付けされており、データ量は計算機の上限値によってのみ制限されます。一度学習させたエミュレータは、新しい計算を高い効率で実行できるようになり、時には数桁の速度向上を達成することができます。

この「第 5 のパラダイム」は、自然科学だけでなく、マシンラーニングにとっても最もエキサイティングなフロンティアの一つです。これらのエミュレータが主流となるにはまだ長い道のりがあり、十分な高速性、堅牢性、汎用性を備えている必要がありますが、実世界にインパクトを与える可能性があることは明らかです。たとえば、低分子の医薬品候補だけでも 1060 (10 の 60 乗) 種類、安定な物質の総数は約 10180 (10 の 180 乗) 種類 (既知の宇宙に存在する原子の数のほぼ 2 乗) と推定されています。この広大な空間をより効率的に探索する方法が見つかれば、病気を治療するためのより良い薬、大気中の二酸化炭素を捕捉するためのより良い基質、電池のより良い材料、水素エネルギー社会を支える燃料電池の新しい電極など、無数の新しい物質を発見する能力に変革をもたらすことでしょう。

“AI4Science は、マイクロソフトのミッションに深く根ざした取り組みで、私たち、そして科学界の人々が人類の最も重要な課題に立ち向かえるように、私たちの AI 能力のすべてを応用して科学的発見のための新しいツールを開発するものです。マイクロソフトリサーチには、30年以上にわたる好奇心と発見の歴史があり、地域や科学分野を超えた AI4Science チームは、その歴史に並外れた貢献をする可能性があると信じています。”(ケビンスコット、EVP & CTO)

本日、マイクロソフトリサーチにおいて、英国、中国、オランダにまたがる新しいグローバルチームを率い、この第 5 のパラダイムの実現に注力していくことを発表でき、うれしく思います。私たち AI4Science チームは、マシンラーニング、量子物理学、計算化学、分子生物学、流体力学、ソフトウェア工学、その他の分野の世界的な専門家を含み、この分野における最も差し迫った課題に協力して取り組んでいきます。

—--------------------------------------

実は、第4のパラダイムが流行してから、自称、第5のパラダイムの研究は多数あります。内容は、流行にのっているだけで、根拠の曖昧なものが多いです。

それ以前に、第4のパラダイムは、1つの手法ではなく、手法群と考えるべきものだからです。

マイクロソフトは、第4のパラダイムの本家ですから、第5のパラダイムを流行で提案するはずがありません。

上記の説明をみると、次のように、要約できます。

第5のパラダイム＝第4：データ集約型科学　ｘ　第3：計算機科学

第5のパラダイムという表現が定着するかは、不明ですが、メタレベルで、区別すべき理由はわかります。

（５－５）社会科学と人文科学

図１は、ヘイの区分を元に作成しています。

ヘイは、科学の対象を自然科学に限定しています。

自然科学は、一般には、第2のパラダイム以降を指すと考えられがちです。

たとえば、余りに例外が多く問題がありますが、ポパーの検証可能性を科学と非科学を区別する基準と考えることは、概ねは納得できると考えられています。