(第4の科学パラダイムの出現の結果、古典的な経験的な科学の対象領域は狭まりつつあります)
1)グレイとヘイの科学パラダイム解釈
第4のパラダイムについて、ネットでは、かなり、曖昧な解釈が幅をきかせていますので、最初に、整理しておきます。
チューリング賞を受賞し、元マイクロソフトテクニカルフェローであるジム・グレイは、4つのパラダイムを通じて科学的発見の歴史的進化を特徴づけました。 グレイは亡くなってしまったので、この仕事は、トニー・ヘイが引き継いでいます。このため、「グレイの第4のパラダイム」という名称と「ヘイの第4のパラダイム」という名称が併存していますが、内容は同じものです。ここでは、「ヘイの第4のパラダイム」という名称を主に使います。
ヘイは、自然科学のパラダイムを次の4段階に分けています。
(1)経験的な科学
Thousand years ago: science was empirical describing natural phenomena.
千年前:科学は自然現象の経験的な説明でした。
自然科学の起源は数千年前にさかのぼりますが、最初のパラダイムは、自然現象の直接観察に基づく純粋に経験的なものでした。このような観察には多くの規則性が見られますが、それを体系的に捉えたり表現したりする方法はありませんでした。
(2)理論的な科学
Last few hundred years:theoretical branch using models, generalizations.
過去数百年:モデルを使用した一般化した理論的分岐が発生しました。
第 2 のパラダイムである理論的な科学(Theoretical Science)は、17 世紀のニュートンの運動法則や 19 世紀のマクスウェルの電気力学の方程式のような、自然界の理論モデルによって特徴づけられたものです。経験的観察から帰納的に導き出されたこれらの方程式は、直接観測された状況よりもはるかに広い範囲に一般化することを可能にしました。
訳注:第2のパラダイムは、いわゆる科学革命に対応していると思われます。そう解釈すると、このパラダイムには、実験、仮説と検証の手続きを含みます。
(3)計算科学
Last few decades: a computational branch simulating complex phenomena.
過去数十年:複雑な現象をシミュレートする計算分岐ができました。
これらの方程式は、シンプルなシナリオでは解析的に解くことができましたが、より一般的なケースで解くことができるようになったのは、20 世紀にデジタルコンピュータが開発されてからであり、それが数値計算に基づく第 3 のパラダイムが生まれることにつながりました。
(4)データ集約型科学
Today: data exploration (eScience) unify theory, experiment, and simulation.
– Data captured by instruments or generated by simulator
– Processed by software
– Information/knowledge stored in computer
– Scientist analyzes database/ files using data management and statistics
今日:データ探索(eScience)は理論、実験、シミュレーションを統合します。
–機器によってキャプチャされた、またはシミュレータによって生成されたデータ
–ソフトウェアによる処理
–コンピュータに保存されている情報/知識
–科学者は、データ管理と統計を使用してデータベース/ファイルを分析します
eScience is where “IT meets scientists.”
eScienceは、「ITが科学者と出会う」場所です。
第4のパラダイムは、ヘイがいう「科学データの津波(A Tidal Wave of Scientific Data)」をうけたデータ集約型科学(Data intensive science、 Data-Intensive science)です。データのモデリングを中心とした手法です。
この手法に何を含むかは、解釈が分かれます。「 using data management and statistics」なので、統計的手法が含まれることは確かですが、「data management」は明確ではありません。
(5)まとめと課題
(5-1)因果律の課題
ヘイの議論では、因果律の問題はあまり意識されていないように思われます。
因果律にのらないモデルには、データ縮約や、ディープラーニングがあります。
21世紀の統計学では、統計的因果律が確立したことが目覚ましい成果ですが、その点には、あまり関心はないように見えます。
(5-2)補完と競合
ヘイは、これら 4 つのパラダイムは補完し合いながら共存しているといいます。
これは、微妙な表現です。
図1は、4つのパラダイムを筆者なりに、表したものです。「2:実験科学」は、「2:理論科学」にした方がよかったかもしれません。
図1の横軸は、時間で、縦軸は、科学の対象の複雑さを表します。
2000年前に、1:経験科学が出てきて、まずは、全ての対象は、経験科学の手法で検討されます。
500年前に、2:理論科学が出てきて、実験と数式化できる現象は方程式化が試みられます。
しかし、方程式のせられても、解が求まらない時代が50年くらい前まで続きます。
50年前に、コンピュータが使えるようになって、方程式に乗せられれば、数値解が求まるようになります。計算科学の出現です。
20年前に、第4の科学が出てきました。第4の科学は、データ集約型科学です。データ集約型科学は、手法であると同時に、データでもあります。第3のパラダイムまでは、科学は、真理を解明するものでしたが、第4のパラダイムは、真理を解明するものではなく、データと折り合いをつけて、データから最大限有益な情報を引き出して活用することを目指します。精度の良いデータが多量にあれば、範囲の狭い推定が可能ですが、精度の悪いデータで、量が少なければ、推論(モデル)自体が成り立ちません。推論(モデル)は、真理が決めるのではなく、データが決めます。
15年位前に、情報科学のある大家の先生が、データは十分にある、データの不足はないと講演会で話していました。
しかし、現在の日本は、第4の科学をするための圧倒的なデータ不足に直面しています。大家の先生は、立派な論文を多数書いていると思いますが、だからといって、科学の将来の見通しが当たるとは言えません。将来のことは、誰も、わかりませんので、見通しを誤るか否かは、大家であるか、ないかに関係しません。
さて、「 4 つのパラダイムは補完し合いながら共存」しているのですが、図1を見ればわかるように、経験科学のテリトリーは、次第に狭まっています。
図1では、第4の科学を静的に表していますが、第4の科学は、データ群、手法群なので、時系列で考えれば、次第に対象を拡大しています。
これは、言い換えれば、第4の科学の対象となる事象を、あえて経験科学で解くことには、合理性がないことを意味します。
なので、筆者は、「 4 つのパラダイムは補完し合いながら共存」とは、微妙な表現であると感じます。
(5-3)第5のパラダイム
2022年7月8日に、マイクロソフトは、AI4Science を設立しています。
マイクロソフトの説明は以下です。
—------
しかし、ここ 1、2 年の間に、科学的発見におけるスピードと精度のトレードオフを解決する強力なツールとして、ディープラーニング (深層学習) を活用する新しい方法が登場しています。これは、第 4 のパラダイムの特徴であるデータのモデリングとは全く異なるマシンラーニングの使い方です。なぜなら、ニューラルネットワークの学習に使われるデータ自体が、経験的な観察からではなく、科学の基礎方程式の数値解法から得られるものだからです。科学方程式の数値解法は、自然界のシミュレーターであり、高い計算コストをかけて、天気予報、銀河の衝突モデリング、核融合炉の設計最適化、薬剤候補分子の標的タンパク質への結合親和性計算などの用途に必要な量を計算するために使用することができる、と考えることができます。しかし、マシンラーニングの観点からは、シミュレーションの中間的な詳細を学習データと捉え、ディープラーニングエミュレータを学習させるために使用できると見なすことができます。このようなデータは完全にラベル付けされており、データ量は計算機の上限値によってのみ制限されます。一度学習させたエミュレータは、新しい計算を高い効率で実行できるようになり、時には数桁の速度向上を達成することができます。
この「第 5 のパラダイム」は、自然科学だけでなく、マシンラーニングにとっても最もエキサイティングなフロンティアの一つです。これらのエミュレータが主流となるにはまだ長い道のりがあり、十分な高速性、堅牢性、汎用性を備えている必要がありますが、実世界にインパクトを与える可能性があることは明らかです。たとえば、低分子の医薬品候補だけでも 1060 (10 の 60 乗) 種類、安定な物質の総数は約 10180 (10 の 180 乗) 種類 (既知の宇宙に存在する原子の数のほぼ 2 乗) と推定されています。この広大な空間をより効率的に探索する方法が見つかれば、病気を治療するためのより良い薬、大気中の二酸化炭素を捕捉するためのより良い基質、電池のより良い材料、水素エネルギー社会を支える燃料電池の新しい電極など、無数の新しい物質を発見する能力に変革をもたらすことでしょう。
“AI4Science は、マイクロソフトのミッションに深く根ざした取り組みで、私たち、そして科学界の人々が人類の最も重要な課題に立ち向かえるように、私たちの AI 能力のすべてを応用して科学的発見のための新しいツールを開発するものです。マイクロソフトリサーチには、30年以上にわたる好奇心と発見の歴史があり、地域や科学分野を超えた AI4Science チームは、その歴史に並外れた貢献をする可能性があると信じています。”(ケビン スコット、EVP & CTO)
本日、マイクロソフトリサーチにおいて、英国、中国、オランダにまたがる新しいグローバルチームを率い、この第 5 のパラダイムの実現に注力していくことを発表でき、うれしく思います。私たち AI4Science チームは、マシンラーニング、量子物理学、計算化学、分子生物学、流体力学、ソフトウェア工学、その他の分野の世界的な専門家を含み、この分野における最も差し迫った課題に協力して取り組んでいきます。
—--------------------------------------
実は、第4のパラダイムが流行してから、自称、第5のパラダイムの研究は多数あります。内容は、流行にのっているだけで、根拠の曖昧なものが多いです。
それ以前に、第4のパラダイムは、1つの手法ではなく、手法群と考えるべきものだからです。
マイクロソフトは、第4のパラダイムの本家ですから、第5のパラダイムを流行で提案するはずがありません。
上記の説明をみると、次のように、要約できます。
第5のパラダイム=第4:データ集約型科学 x 第3:計算機科学
第5のパラダイムという表現が定着するかは、不明ですが、メタレベルで、区別すべき理由はわかります。
(5-5)社会科学と人文科学
図1は、ヘイの区分を元に作成しています。
ヘイは、科学の対象を自然科学に限定しています。
自然科学は、一般には、第2のパラダイム以降を指すと考えられがちです。
たとえば、余りに例外が多く問題がありますが、ポパーの検証可能性を科学と非科学を区別する基準と考えることは、概ねは納得できると考えられています。
もちろん、ポパーの基準では、生物学、特に、進化論は、科学ではなくなります。
ヘイは、この議論をさけて、アリストテレス以降の手法を広い意味での第1のパラダイムの科学に設定しています。
経験的な科学の説明は以下でした。
—-------------------------------------
自然科学の起源は数千年前にさかのぼりますが、最初のパラダイムは、自然現象の直接観察に基づく純粋に経験的なものでした。このような観察には多くの規則性が見られますが、それを体系的に捉えたり表現したりする方法はありませんでした。
—-----------------------------------------------
ここで、「自然現象」を「社会現象」に置き換えれば、上記の文章は、社会科学の起源の説明としても、そのまま使えます。
過去に、社会科学は、経験的な科学からの脱却を試みています。近代経済学は、方程式で記述できます。
その結果、経済学では、第2の理論科学、第3の計算科学が、第1の経験的な科学に、とってかわった部分もあります。
また、統計学の活用も試みられてきましたが、第4のパラダイムの導入によって、統計学は、データ集約型科学の一部とみなされるようになりました。
しかし、一方では、第1の経験的な科学から抜け出せない分野もあります。経験的な科学の問題点は、2つあります。
第1は、ヘイの指摘と同じように、「規則性を体系的に捉えたり表現したりする方法」がない点です。
第2は、ポパーの設問で、検証の手順がないと客観性が担保できない点です。
科学を、第4のデータ集約型科学の視点でみれば、科学的なアウトプットは、次の形式で書けます。
アウトプット=データ x アルゴリズム
物理学のような理論科学では、アルゴリズムが、理論の本体であり、科学はデータから独立した真実のように考えることも可能でした。
計算科学では、数値解を求めるために、最低限t=0のデータを与える必要があります。つまり、具体的なアウトプット(数値解)には、データは必須です。
データ集約型科学では、アウトプットは、データに依存します。
第4のパラダイムは、社会科学と人文科学の方法論に影響を与えます。
その影響は、ここでは論じませんが、2009年に、「The Fourth Paradigm: Data-Intensive Scientific Discovery」が出るまえに、自然科学以外から提案された新しい社会科学や、人文科学のパラダイムは、定着していません。
その理由は、 データ依存でないためだと思います。
既存の学問成果を正当化するようなパラダイムを提案する場合、既存の学問成果がデータ依存出ない場合には、データ依存の条件を外してしまいます。そのようなパラダイムは、データ集約型科学とは相いれません。
ヘイは、eScienceは、「ITが科学者と出会う(eScience is where “IT meets scientists.”)」場所であるといいます。
これが、最低限の新しいパラダイムの必要条件と思われます。
ここでは、第4のパラダイムの出現によって、図1のように、経験的な科学の対象領域が狭まりつつあり、社会科学と人文科学も、この問題から、無縁ではいられなくなっていることを指摘しておきます。
引用文献
The Fourth Paradigm: Data-Intensive Scientific Discovery – Microsoft Research
The Fourth Paradigm 10 Years On Tony Hey & Anne Trefeth
https://d-nb.info/1209943417/34
The Fourth Paradigm and Big Scientific Data Tony Hey
https://www.youtube.com/watch?v=R-OyGXgKC38
新しい学術体系-社会のための学術と文理の融合-
https://www.scj.go.jp/ja/info/kohyo/18youshi/1829.html
大文字の第二次科学革命-情報論的転回-2005-12 吉田民人
http://www.jaist.ac.jp/coe/library/jssprm_p/pdf/research_2_2.pdf
科学的発見の第 5 のパラダイムを実現する AI4Science を設立 2022年7月8日 | Microsoft Japan News Center