過去と未来の違い

(データサイエンスには、過去と近未来と未来の区別があります)

 

1)データサイエンスの時間

 

人文的文化と自然科学文化の間のギャップは、マイクロソフトの4つのパラダイムで言えば、経験科学とデータサイエンスの間のギャップです。

 

実は、大学の学部でいえば、理系と思われている理学部、工学部、農学部でも、経験科学のルールを採用している分野があります。かくれ人文的文化が存在します。

 

人文的文化では、科学になりませんので、研究手法に致命的な問題を抱えていますが、このことは広く認識されていません。

 

本書は、スノーの人文的文化と自然科学文化の間のギャップ、相互理解ができないことを明確にして、混乱をさける視点にたっています。

 

そこで、今回は、人文的文化(経験科学)と自然科学文化(データサイエンス)と時間の問題を整理しておきます。

 

データサイエンスでは、因果モデルに必要なデータを収集する計画を立てます。

 

一番知られている手法は、フィッシャーの実験計画法(ランダムサンプリング、RCT)です。

 

RCTには絶大な効果がありますが、非常にコストがかかるので、代替手段になる近似的手法が最近30年間に開発されてきました。ビッグデータと言われる手法も、代替手段の一つです。

 

その結果、データサイエンスの適用可能範囲が、驚異的に拡大しています。

 

実験計画法は、過去に遡って実施することはできません。

 

実験計画法では、実験を始めて、ある期間が過ぎると、実験を終了します。

 

つまり、時間は次の3つに区分されます。

 

(1)過去:実験を始める前

(2)近未来:実験を実施している期間

(3)未来:実験が完了して以降の時間

 

実験計画法の一般化でもあるデータサイエンスでも、この区分は有効です。

 

データサイエンスとは、「(2)近未来」のデータを使って、「(3)未来」に、発生するデータを予測する手法です。

 

実験がバージョンアップして継続的に行われることがあります。実験計画であれば、実験を繰り返す場合です。このような場合には、近未来の期間が大きくなります。

 

近未来の期間が大きくなると、見かけ上は、近未来に、過去が含まれているように見えることもあります。しかし、過去と近未来の違いは、計画に従って、体系的に、データの観測と収集がなされてたか否かできまります。データ計測の基準、手法が規格化されていて、出来るだけバイアスを排除する工夫がなされていることが、近未来の条件になります。

 

2)過去の問題

 

歴史学は過去を問題にします。

 

前例主義は、過去のイベントは再現すると考えます。

 

データサイエンスは、過去のデータを使いません。

 

これは、過去のデータには、膨大なバイアスがあるからです。

 

しかし、世の中には、近未来の実験によって収集できないデータもあります。

 

例えば、大昔に起こったイベントのデータを、これからイベントを再現させて、観測することはできません。このような場合には、データサイエンスが使えませんので、経験科学の手法が使われます。

 

データサイエンスは、データサイエンスが使えない分野での経験科学の使用を否定できません。つまり、過去のデータが全てである学問分野では、経験科学が生き残ります。

 

例えば、ジャレド・ダイアモンド氏の著作は非常に興味深いです。

 

ダイアモンド氏は、自身の研究方法は、比較であるといっています。

 

しかし、データサイエンスの知見では、AとBの比較は、比較する以外の属性の違いが、バイアスを引き起こさない場合を除いて、正しい結論に到達できません。

 

つまり、比較という手法には、比較する事項以外の属性のバイアスを無視することで、間違った結論に到達する高いリスクを常に、抱えていることになります。

 

とはいえ、ダイアモンド氏が研究対象としている古い文明のデータをデータサイエンスをつかって収集しなおすことはできません。

 

つまり、過去のデータに対しては、データサイエンスは、全く無効ですので、ダイアモンド氏が、経験科学の手法を使うことに対して、データサイエンティストは、不本意ながら、了承して理解します。

 

しかし、必要とするデータが過去のみに存在して、近未来に存在しないという条件がなければ、データサイエンティストは、バイアスの多いデータに基づく経験科学は使うべきでないと主張します。

 

3)近未来

 

データサイエンスにとって、近未来の概念は非常に重要です。

 

近未来が発生したあとで、経験科学を続けることには、全く合理性がないからです。

 

3-1)地球温暖化問題

 

地球温暖化問題は、1992年のリオサミットで、重要なテーマになりました。

 

しかし、その時点では、十分なデータがあった訳ではありません。

 

1990年代を通じて、勢力的なデータ整備が進められ、全球データがそろってきたのは、今世紀に入ってからです。

 

つまり、地球温暖化問題の近未来は、2000年以降と思われます。

 

地球温暖化問題は、最初、計算科学の問題としてスタートしていますが、データサイエンスで扱えるようになるには、時間が経過しています。

 

3-2)生物多様性問題

 

生物多様性問題も、大きな問題提起は、1992年のリオサミットからになります。

 

生物多様性問題には、計算科学のアプローチは使えませんでした。

 

その点では、生物多様性問題は、典型的なデータサイエンス問題です。

 

生物多様性問題の近未来がいつから始まったのか、今の定説はありません。

 

ただし、生物多様性のCOP会議、自然資本の経済学、生態系データベースの整備を見る限り、欧米では、2010年頃に近未来が始まったと、筆者は考えています。

 

残念ながら、日本では、未だ、近未来が始まった兆候がみられません。

 

経験科学からデータサイエンスへ、人文的文化から自然科学文化への問題解決のアプローチの切り替えは近未来の始まりに対応しています。



3-3)デジタル社会とDX

 

デジタル社会とは、データに基づく、データサイエンスの論理で意思決定が行われる社会です。

 

DXは、その移行過程と見なされています。

 

ということは、DXは、近未来と対応していることになります。

 

人文的文化(経験科学)の意思決定には、バイアスのないデータは不要ですから、いつまでも人文的文化の意思決定をすれば、近未来が始まらない、DXが始まらないことになります。

 

4)未来

 

実験計画法と同じように、近未来は、問題解決の場である未来を前提として、設計されます。

 

これが、自然科学文化です。

 

これは、戦術が戦略かという区分では、戦略に属します。

 

そう考えると、スノーが指摘したギャップを認めて、自然科学文化で問題解決を図らないと出口はないと言えます。