2つの科学(1)

(理論科学とデータサイエンスの2つの科学があります)

 

1)4つのパラダイム

 

データサイエンスが出てきた結果、2種類の科学がある状態になりました。

 

これは、データサイエンスや、疫学を学習した人にとっては、基本的なリテラシーですが、周囲をみわますと、理解している人がほとんどいません。

 

理論科学は、ガリレオが実験を手法として位置づけ、ニュートン微分積分学を定式化し、1750年頃までには、オイラーが、数式表現を整理して、基本形が完成します。

 

データサイエンスは、ベイスが、ベイスの定理を証明して、フィッシャーがRCTを発明してから、停滞が続きます。コンピュータが、ビッグデータと膨大な計算能力を使えるようになって、1990年頃から、データサイエンスが急速に進歩します。

 

エビデンスベースの手法の実用化は2000年ころから、実用化します。クラウドが普及し、AIによる画像認識が実現し、生成AIが出てきます。これらは、ビッグデータと膨大な計算能力に基づいています。今後も、ブレークスルーがあると思われますが、科学的な手法は、データサイエンスに基づいています。バイテクも、生態学も、ビッグデータを扱う科学は、現在では、全て、データサイエンスの領域に属しています。

 

つまり、1750年頃に、物理学を中心とした科学革命がありました。

 

一方、2000年頃には、データサイエンスを中心とした第2の科学革命がありました。

 

チューリング賞受賞者で元マイクロソフトテクニカルフェローのジム・グレイ氏は、科学的発見の歴史的変遷を 4 つのパラダイムに特徴づけています。

 

グレイ氏の追悼のためにMicrosoftの研究者が中心となって、2009年にデータ集約型科学のエッセイ集「The Fourth Paradigm: Data-Intensive Scientific Discovery」を出版しています。

 

ここでは、第1のパラダイムに経験科学、第2のパラダイムに、 理論科学 (theoretical science)と実験科学 (experimental science)、第3のパラダイムに、 シミュレーション (simulation)、第4のパラダイムに、データ集約型科学 (データサイエンス、data-intensive science)をあてています。

 

用語の混乱があります。

 

科学革命という場合には、経験(経験科学)は科学には分類されません。

 

シミュレーション は、理論科学の応用です。使用する仮説(公式)は理論科学と同じものを使います。

 

おおきなくくりで考えれば、世の中には、理論科学とデータサイエンス(データ集約型科学)の2種類の科学があると理解すれば十分です。

 

ところで、データサイエンスは何を対象とした科学であるか、理解している人は少ないように思われます。

 

2)模擬理論科学

 

20世紀に物理学が大きな成功をおさめた結果、物理学をモデルにした科学(模擬理論科学)が発生します。

 

ここで模擬理論科学というのは、理論科学になりきれない部分を抱えた科学という意味です。

 

典型は、経済学です。経済学では、ストックとフローを問題にします。ストックとフローは、物理学と同じ微分方程式で表わされます。ここまでは、理論科学のレームが100%当てはまります。問題は、パラメータやパラメータの決定をするための評価関数です。

 

経済学では、経済的に合理的な人間を想定します。つまり、人間の行動は、便益最大化を評価関数に設定すれば、パラメータ同定ができると仮定します。更に、市場経済の存在を前提とします。

 

この仮定は、現実には、実現不可能ですが、他に、良い代替案がないため使われ続けています。

 

前提とする仮定が、現実とは、ずれているため、経済学では、物理学と同じレベルでの、仮説の検証はできません。

 

仮説が8割位あっていればOKといったイメージになります。残りの2割が、模擬理論科学の模擬の部分になります。

 

データサイエンスは経済学にも取り入れられています。

 

データサイエンスは、経済学の模擬理論科学の模擬の部分に取って代っています。

 

これは、データサイエンスが、残りの2割を推測するという意味ではありません。

 

データサイエンスの世界で、変数は確率変数です。8割はOKで2割はNot OKは、確率表現になります。

 

こうして、経済学がデータサイエンスを取り組むことで、模擬科学の部分は、解消されま

す。ただし、理論科学の決定論の世界でなくなります。

 

理論科学では、仮説(理論公式)が、科学の本質であって、パラメータは、副次的です。

 

データサイエンスでは、問題はパラメータであって、仮説(理論公式)は副次的です。

 

ベイジアンネットワークのような条件付き確率の公式は、全ての分野をカバーします。

 

生成AIが何でも扱える理由は、推論モデルが、条件付き確率を使っているからです。

 

こうして、模擬経済学は、純粋な理論経済学とデータサイエンスに別れてきています。

 

3)Casual Universeとデータサイエンス

 

公式とパラメータの違いは、重要なので、整理しておきます。

 

理論科学では、公式が重要です。

 

力学では、ニュートンの公式を習います。

 

試験問題は、公式を暗記して、変数に値を代入ます。

 

ここでは、公式が主で、データは従です。

 

データサイエンスには、ニュートンの公式に相当するような次元解析のでる公式はありません。

 

公式は、確率の計算手順であり、次元に縛られません。

 

生成AIは、科学的な手順に基づいて作られています。

 

生成AIの推論は、間違いを犯します。

 

しかし、この推論は科学的な手順に従って生成されたものであり、今後、改善する余地があります。

 

学習データが増加すれば、推論は変化します。

 

推論を左右するのはデータです。そして、生成AIが利用するデータは、人間の能力を越えた量になっています。








図1 理論科学とデータサイエンスの違い






図1は、「理論科学とデータサイエンスの違い」のイメージ図です。

 

仮説命題と命題の検証をするCasual Universeは、セットになっています。

 

仮説を検証することは、仮説があてはまるCasual Universeを探索することに置きかえられます。

 

カルマンフィルターや、ベイス更新は、Casual Universeが増加していく過程、あるいは、Casual Universeの要素(インスタンス)に、ウェイトをつける過程と解釈できます。

 

データサイエンスの手法の多くは、Casual Universeのハンドリング問題として取り扱えます。

 

この点で、筆者は、Casual Universeを母集団より広い概念として扱うべきと考えます。

 

さて、科学には、理論科学とデータサイエンスの2種類があります。

 

現実には、この2種類の範疇に収まらない方法として、経験科学と模擬科学があります。

 

つまり、カテゴリーは4つ(理論科学、データサイエンス、経験科学、模擬科学)あります。

 

グレイ氏の4つのパラダイム、パースのブリーフの固定化の4つの方法(固執の方法、権威の方法、形而上学、科学の方法)と共通する部分もありますが、模擬科学の扱いが異なります。

 

模擬科学の典型は、近代経済学マルクス経済学です。マルクス経済学は、イデオロギーなので、基本的に形而上学です。しかし、経済学は、実生活と切り離せませんので、形而上学にはなりきれません。一方では、経験科学にもなりきっていません。近代経済学は、微分方程式で表現できますので、経験科学よりは進歩していると考えている経済学者が多いと考えられます。しかし、理論科学ではありません。

 

データサイエンスの経済学が拡大しています。しかし、今のところ、多数派は、微分方程式で表現にあり、エビデンスベースのデータサイエンスではありません。

 

今回の主題は、2つの科学ですが、カテゴリーは4つあるので、問題は複雑になっています。

 

なお、筆者の4つのカテゴリーは、現時点での暫定的アイデアです。他によい方法があるかも知れません。ただし、パースの4分類とグレイ氏の4つのパラダイムに収まりにくい模擬科学の扱いを考慮すべきと考えます。