主成分分析と人文科学の可能性~コロナウィルスのデータサイエンス(94)

今回は人文科学と一部の社会科学の可能性を主成分分析から考えてみます。

人文科学って本当に客観性のある科学といえるかという疑問が突き詰められることが多いですが、多くの場合には返答に詰まっています。今回は、主成分分析と交差検証法を使えば人文科学が科学と言えるかについて見通しが立つのではないかという話です。

人文科学的方法論

人文科学によく用いられる研究方法を見ておきます。これは、おそらく、数値やデジタル化された文字を扱わない分野では一般的な手法です。

最初に、何かテーマを決めて、文献検索をします、これは、例えば、コロナウィルスのデータサイエンスであれば、いつもググっているキーワードは「コロナウィルス 感染者数」なので、、このようにデータを集めるキーワードを決めます。もちろん、コロナウィルスだけでは、命題になりませんので、こうしたデータ集めた後で、論文の仮説となる命題を考えます。次に、命題に沿って資料を集めて、命題が成立するかを検証します。うまくいかなかったら、命題が間違っていたので、命題を作りなおして、集めたデータで、命題が検証できるまで作業を繰り返し、めでたく、集めたデータが命題を検証出来たら、論文のできあがりです。この方法を以下では人文科学的方法論と呼ぶことにします。

人文科学的方法論には次の点で問題があります。最初の点は、比較的よく指摘されています。

  • 命題の仮説検証の場合に、100%のデータが仮説を検証することはまずありません。つまり、ポパー流の反例による検証はほぼ不可能です。ですから、一部のデータを例外として無視する、仮説命題をデータに合うように部分修正するなどのすり合わせを行います。どの程度例外があるかの評価事例は人文科学ではないですが、経済学の場合はどの命題も80から90%あっていればよいほうだといわれていますので、人文科学ではそれ以下と思われます。

  • 人文科学的方法論は主成分分析などの統計解析手法と比較してみると、方法論上の不備がわかります。

次に、指摘の少ない、後者を考察します。

主成分分析の人文科学的解釈

主成分分析を思いっきり人文科学的に解釈します。

主成分分析の主成分(行列の固有値)は、次元縮約で、仮説命題に相当します。つまり、選ばれた主成分を仮説とすることで、仮説と実測データの誤差関数の値が最少になります。

主成分分析がわかりにくいのは、人文科学であれば、2段間を踏む、命題の抽出と検証が同時に行われるためです。主成分分析では、第1、第2などの少数の主成分でデータの特徴がうまく説明できることもありますし、少ししか説明できないこともあります。これが、命題の検証の程度に対応します。

人文科学的方法論による主成分分析

次に、人文科学的方法論で主成分分析を行ってみます。

以下、わかりやすさを優先して、実例の数を使って説明します。

データが1000件あったとします。1000件のデータを読み流して、共通する命題を作ることはマンパワーではできませんので、例えば100件のバッチ10個をつくり、1つのバッチを丁寧にみて仮説命題を立てます。この命題を使って、残りの900件のデータを追加して検証を行います。

これは、100件のデータで主成分分析を行い、次に求められた主成分の評価軸を固定して、全データでスコアを計算する手順に相当します。

この方法は主成分分析の利用法としては間違いです。つまり、人文科学的方法は、主成分分析に比べれば、仮説命題を作成するときに、一部のデータしか使わないバイアスをもっています。まあ、マンパワーでは主成分分析はできないので、マンパワーの限界によるバイアスではあります。

ここで、データバッチと仮説命題の対応が課題であることを確認しておきます。

効率性の課題

バッチの問題はありますが、命題を作成して、検証されるまで、命題を作り直すことは本質で重要です。しかし、最終的に残った命題以外の命題は、論文にのりませんし、担当研究者以外には見えない部分です。しかも、現在は、業績主義ですから、まず、本数を稼ぐ必要があり、廃棄される命題を減らさないと失業してしまいます。そこで、命題を作る手間を減らす、都合の悪いデータは廃棄することが行われます。この都合の悪いものを排除する傾向は研究者に共通してみられる傾向で、ノーベル賞をとったライナス・ポーリングの論文ですら、研究レビューの部分で、都合の悪い論文の引用を意図的に排除していると非難されることもあります。都合の悪いデータを排除しても、人文科学的方法論ではそれをチェックする仕組みがありません。廃棄されたどんなデータがあったかは、担当研究者以外は知りえません(注1、注2)。

効率性が更に追されるのは、マスコミの場合で、放映日や掲載日が最初にきまっていますから、もっとも効率よく、番組や記事をつくる必要があります。

城繁幸氏は「メディアってなぜ発言を編集して別の意見に変えちゃうの?と思ったときに読む話」で次のようにかいています。


自分でアポイントとって2,3時間話を聞いて、それをベースに執筆して、足りない部分があればまた連絡とって……みたいなことを毎回やっていると全然時間足りないんですよね。毎回胃に穴が開くんじゃないかと思うほどきつかった記憶があります。

知り合いの記者にその話をしたらこんなことを教えられました。

「そのやり方はすごく古くて、今やっている人はほとんどいないと思いますよ。今はあらかじめ概要を描いておいて、それにふさわしいコメントの出来る人に最初から絞って取材するんです。そうすれば最初からピンポイントで質問もできますしね。そうでもしないとカバーする範囲が広すぎて対応できませんから」


この方法は、科学としては問題がありますが、主成分分析のような手法を用いない限り、回避することは難しいと思います。

なお、同様に効率性が求められる公務員の仕事の多くは、自分たちの施策に都合の良いデータを集めてくることに費やされます。民間会社も、リコールが起こるような場合を除けば、如何に自社の製品がよいかという都合の良いデータを集めてくることに時間を割いているとおもいます。逆に、こればかり暴走するとリコールが止まらなくなる原因でもあります。公務員のこうした生態を考えると、「コロナウィルス」対策が非常に困難な課題であったことがわかります。

交差検証法の課題

最後にバッチの問題を見ます。これは、データを仮説を立て、パラメータ合わせを行うために使った部分と検証する部分に分ける手法です。データを、モデルの同定用と評価用に分けること自体は、古くからおこなわれていました。交差検証法では、全データを複数のバッチにわけ、同定用と評価用のバッチを機械的に入れかえて検証します。こうしたことが可能になったのは、計算能力に余裕が出てきたためです。

交差検証法のアイデアは仮説と検証に広く使えますので、人文科学でも利用可能です。

まとめ

データサイエンス、特に、主成分分析と交差検証法から、人文科学を眺めてみると、従来の手法の粗が目立ちます。こうした点を改善すれば、人文科学は検証可能な科学になりうると思いますが、かなり、統計学が入って、現在の人文科学とはイメージが変わるでしょう。

 

 

注1:ほとんどの科学論文では、仮説検証に失敗した結果は論文にならず公開されません。これを記載すると論文は通りません。その結果、多くの研究者は同じ間違いを繰りかえすことになります。論文の生産性を上げるには、仮説検証の失敗を減らすことが重要です。論文の生産性をあげるとすり合わせが多くなります。もちろん、直感で、一度に外れない仮説が立てられてしまう一部の天才は別ですが。なお、この注で最初は「ほとんど」をとっていましたが、考えたら、統計学の論文では、相関がなかったという論文もありです。今まで、これはあたりまえと思っていましたが、よく考えたらすごいことだと思います。

注2:データの破棄を防ぐ方法は、母集団とサンプルを明確にすることです。統計学では、母集団と入手され利用可能なサンプルデータは何かを記載することが論文のスタートになります。母集団にくらべ、利用可能なデータが少なければ推定精度が落ちます。場合によっては、もう少しデータがストックするまで待った方がよいです。得られた命題は、母集団に対してのみ有効です。人文科学の論文では、母集団とサンプルが明示されないことが多いです。また、「社会生物学」論争は、母集団が明確なデータサイエンスでは起こりえないと思います。

 

引用

  • メディアってなぜ発言を編集して別の意見に変えちゃうの?と思ったときに読む話

Joe's Labo 2020年05月21日16:23

http://jyoshige.com/archives/9614350.html