主観と客観とデータサイエンス

今回は、主観と客観の問題を主にデータサイエンスの視点で考えてみます。

主観と客観

主観感情論

世のなかには、科学が、仮説で正しくないというと、鬼の首を取ったように喜ぶ人もいます。

こうした人は、科学=客観的=正しい、感情=主観的=正しくないといったステロタイプにとらわれていると思います。ただし、一方では、何が、主観で、何が客観であるかを伝えてこなかった点もあると思われます。人間は、生物なので、感情を適切にコントロールしないと、心理的に不安になったり、心身症になったりしてしまいます。これが行き過ぎると、反動で、反科学論みたいな活動になりがちです。しかし、主観と客観についてこうしたフレームで考えられることも多いと思われます。

多数決論

もうひとつの基準は、多数決原理であると思われます。ガリレオの宗教裁判を引き合いに出すまでもなく、多数決原理が、正しい結論を導き出すことができないことは知られていますから、自分は多数決原理に従って、客観を判断しているということははばかられます。ですので、これが、客観の根拠になっているとは表向き語られることはありません。しかし、現実には、多くの人が言っているので、たぶん、正しいだろうと判断する訳です(注1)。典型的な例は、温暖化問題であると思われます。温暖化問題を、わかりやすく説明できる素人は少ないですが、理由が説明できなくとも、これは客観的な事実であるという人が多いと思われます。

データサイエンスの主観と客観

おそらく、普通の用語では、客観=正しい、主観=正しくないという枠組みが生きていると思われます。

ここで、データサイエンスの主観と客観を考えます。

データサイエンスで主観が問題になるのは、ベイズ統計における確率の位置づけです。ときに、ベイズ更新における事前確率の取り方は、主観そのものです。

しかし、頻度主義でも主観の入る場合もあります。たとえば、検定における両側確率、片側確率の取り方です。ある場合には、両側を別の場合には、片側の区間を考えます。どちらが適切かは主観の問題になります。

データサイエンスにおける主観と客観は、用語に問題があるかもしれません。客観というのは、それ以外の値を想定することが難しいという意味に使われ、主観というのは、色々な値が想定できるが、とりあえずの値を設定して使う程度の意味です。

表1にデータサイエンスにおける主観と客観をベイズ統計を例に整理してみました。

ベイズ統計の場合には、事前確率を主観で決めて、ベイズ更新を行います。更新が成功すれば、推定された確率は、最近のデータの情報に合わせて、改善された確率になります。この手順が、検証に相当します。

ベイズモデルを作って、モデル化でおおきな間違いをすると、ベイズ更新の結果が、トンデモない値になることもあります。この場合には、更新をあきらめてモデルを廃棄してしまうので、主観による仮説は誤りになります。モデルを作って、検証する前(ベイズ更新する前)、あるいは、検証自体をしない場合もあります。

この場合には、論理的には、正誤は不明になるのですが、科学では、最悪事態を想定することと、経験的に、検証されていない仮説には、誤りが多いことから、ほぼ誤りとみなします。

頻度主義の場合には、サイコロを例に考えます。各目が1/6ずつ出るということは、サイコロが手に入った状態では検証されていません。ここから、立場は2つに分かれます。

第1は、目の組み合わせの数から1/6だと考える方法です。サイコロを振ると、1から6の目が均一に出ることはないのですが、この場合には、大数の法則が働いて、最終的には1/6になるだろうと考えるわけです。

第2は、実際に、サイコロを振って確率分布を求める方法です。この場合には、得られた確率分布が正解になり、各々の目の出る確率は1/6にはなりません。

頻度主義の場合には、現実問題として、第1の方法が使われることが多いので、考え方よっては、これには検証がないという反論もありえます。ただし、頻度主義の確率は第2の方法で求められるものではないという立場も存在します。というのは、サイコロは振っているうちにすり減ってしまい最初に、各目の確率が1/6であっても、途中から変化する可能性があります。大数の法則は、無限回の試行を考えているので、思考実験の概念であって、実際の概念ではないとする立場です。

筆者は、頻度主義は、確率を客観的な科学であるという装いにするために、無理をしているのだと思います。ただし、科学は本質的に主観であるという命題は、常識的な、一般に流布している、主観と客観の区別と異なるので、この命題が一般に受け入れられないかもしれません。

次は、科学の正しさについて触れてみます。

f:id:computer_philosopher:20200709154420p:plain

表1 主観と客観の区分

科学の正しさ

「科学が、仮説で正しくないというと、鬼の首を取ったように喜ぶ人もいます」と申し上げましたが、このあたりが、一般の人とデータ・サイエンティストの違いかもしれません。

科学において、正しいか、正しくないかより、検証可能か、検証結果に基づいて改善可能かの方が重要です

ポパーのような古典的な科学哲学では検証が可能なこと、反例によって覆されないことが重要でしたが、ポパーは物理学をモデルに、科学を科学以外と区別する方法を検討しました。その背景には、当時の社会主義科学的社会主義を名乗っていたので、エセ科学を批判するという視点があったといわれています。

ポパーの主張を、物理学以外の科学に当てはめると、実態にそぐわないことが問題視され、その後、改善が、試みられていますが、基本的な視点として、検証できること、その結果に基づいて理論が改善できることが重要であるという点では、大筋で見解は一致していると思われます。

 

検証可能性をどのレベルで論するかは、科学の分野によって異なって、意見の一致をみていませんが、分野ごとの検証の手続きを定めて、その方法論にしたがって論文が作成され、レビューが行われます。この点では、科学の正しさを保証しているものは検証手続きの正当性にあります

 

ただし、「分野ごとの検証の手続き」が妥当か否かは、議論の分かれるところです。大きな論点は、相関と因果をどのレベルで、区別するかという点にあります。少なくとも、疫学とデータサイエンスでは、この区別は、明確になってきました。しかし、他の分野では、あまり気にしていないことろもあります。

もうひとつの大きな問題は、科学は、仮説の集まりであるという点にあります。科学はモノの見方であって、モノそのものではありません。モノを調べる典型的な手法は博物学です。博物学のデータが、科学の発展に寄与したことは間違いありませんが、データそのものは科学ではありません。正方形をみて、これは、特殊な長方形であるという見解もありますし、いやこれは、特殊なひし形であるという見解もあります。どちらの立場によるかで、想定される図形の性質は異なります。実学や経験科学の看板をあげている分野では、依然として、博物学の知識フレームが生きている場合があります。

試験問題で分析の手続きが問われることはほとんどありません。理由は、採点が非常に困難だからです。

論理的に記述する訓練を受けていない人の答案は、読んでも、なんの手続きをのべているのか、理解できません。採点の一番簡単なのは、暗記問題です。こうした教育が強化されますと、答えをまず先に求める傾向が強くなります。このフレームを壊すことは容易ではありません。

 

注1:集団学習アルゴリズムと多数決原理の違いに注意してください。ここで、多数決原理と言っているのは選挙の投票による多数決原理です。これは、投票者の行動が独立ではなく、ある一つの値(候補名)に収束することを目指します。このときに、他の投票者の行動は関連情報として、提供され、投票行動は独立ではありません。代表的な例が決選投票です。一方、集団学習による多数決原理は、個別の試行がして行われ、試行結果の分布が問題になります。ここでは、強制的に代表値を1つに絞ることはしません。