統計的ビジョン~2030年のヒストリアンとビジョナリスト

(統計的ビジョンの概念を説明します)

 

今回のテーマは統計的ビジョンです。

 

統計学では、解析に入る前に、データの分布を想定します。

 

例えば、サイコロの目であれば、離散型の一様分布を想定します。

 

特定のサイコロの目の分布は、サイコロを振ってデータを集めて分布を修正することができます。しかし、この修正には、データが必要なため、修正のレベルは様々です。全く修正されないこともあります。今回は、この修正問題には立ち入りません。

 

このレベルは、事前分布の想定(仮定)問題で、別にネーミングするメリットはありません。

 

2番目の例は、カーネマンの著書「ノイズ」です。

カーネマンは、心理学の立場から、ノイズが結果に影響を与える場合を述べています。最初にあげられた例は、裁判の判決の結果のばらつきです。引用されている研究は、実際の裁判結果や裁判官による判断を集めた実証的な研究です。これは、帰納法的な研究手順の王道に従っています。

 

この問題をデータサイエンスの目でみると違った風景が見えます。裁判官の判決は、犯罪の事象を刑罰の大きさに落とし込む作業です。これは、判別問題に見えます。裁判官がどのような判別関数を利用しているのかわかりませんが、仮に、decision treeを使っていると仮定します。decision treeは、観測値に誤差が含まれている場合には、結果が不安定になります。それは、数値実験で、誤差項を変化させて見れば、確かめられます。

 

犯罪の観測値の誤差の定義は、難しいですが、仮に、証拠が10個あり、そのうちの1つが使えない場合を想定します。これは、似たような犯罪Aと犯罪Bがあり、構成される証拠が異なる場合にはありえる仮定です。あるいは、犯罪は同じですが、裁判官Cは、9番目の証拠を重視しない、裁判官Dは10番目の証拠を重視しないといった立場の違いでも構いません。

 

こうした犯罪の観測値に誤差が含まれている場合に、適切な判別関数を求める問題(誤判別を減らす問題)は、数値実験で、検討できます。この検討には、データサイエンスの知識は必要ですが、適切な学習データが提供されていれば、法律の知識は不要です。コンピュータとソフトウェアが必要ですが、情報(適切な学習データ)があれば、犯罪者や裁判官に面接する必要はありません。

 

犯罪の観測値の誤差のビジョンは、統計的ビジョンと考えられます。

 

この例に見るように、データサイエンスの統計的ビジョンは、既存の人文科学の研究手法に大きな問題を投げかけています。

 

第3の例は、デカルトの命題です。哲学者の中には、「われ思う、ゆえにわれあり」を絶対的正しい命題だと考えている人がいるかもしれません。

 

しかし、この命題は、データサイエンスからすれば、突っ込みどころ満載です。

 

神様が、人間に与えてくれた言葉は絶対万能で、間違えることがないという大前提があります。

仮に、この大前提が成立したとしても、データサイエンスでは、観測されたデータがないと研究がスタートしません。

この命題のどこに観測されたデータがあると考えるべきでしょうか。

デカルトは、自分が存在するかしないかを考えます。この関数を存在関数と呼ぶことにします。デカルトは存在関数は、「あり、ない」の2値をとる関数であると考えています。これは、事前分布の想定になります。存在関数が「ある、わからない、ない」の3値をとる関数であるか、あるいは、データサイエンスで、一般的な存在確率をpとする場合、pは、0(ない)と1(ある)の間で連続分布すると仮定すれば、「われ思うゆえに、われあり」とは、別の結論が得られます。

 

「存在関数、観測されたデータ、言葉は絶対万能」をまとめて、ここでは、統計的ビジョンとよぶことにします。



「統計的ビジョン」は個別のケースでは、検証できません。これは、判別問題のひとつである画像認識を考えればわかります。写真1に、犬が写っているか否かの結果の正否で、判別関数の評価はできません。しかし、数万枚の画像認識の誤判別の結果から、利用価値の高い「統計的ビジョン」を選ぶことはできます。

 

デカルトの場合のように、1事例では、統計的ビジョン(判別関数)の評価はできません。

 

なお、関数の確率分布の問題は、裁判でも、重要です。法学の基本は、疑わしきは罰せずですが、データサイエンスでは、データにノイズが含まれている場合、誤判別がゼロの関数はできないと考えます。リスクマネジメントとゼロリスク政策をとってはいけないのと同じ考え方です。