(因果モデルの母集団について説明します)
1)反事実モデル
統計的因果モデルは、反事実モデルと呼ばれます。
これは、インスタンスは一つの値しかとらないことに対応します。
例えば、1日に30分運動すると健康によいと言われます。
「健康によい」では、検証できませんので、ここでは、高血圧にならないという命題を考えます。
これは、あなたが、30分運動した場合と、運動しなかった場合の血圧を比べて、30分運動した場合の血圧が低くなることを意味します。
しかし、あなたは、一人しかいませんので、あなたは、30分運動するか、運動しないかのどちらかしか選択できません。
仮に、あなたが、30分運動した(事実)とすると、運動しないあなたは、存在しませんので、運動しないあなたは、反事実になります。
つまり、「1日に30分運動すると健康によい(血圧が下がる)」という命題は反事実を含んでいることなります。
これは不合理なので、命題を見直す必要があります。
2)オブジェクトとインスタンス
「if A the B」の形式で整理してみます。
if (30分の運動) then 低い血圧
if NOT(30分の運動) then 高い血圧
ここで、原因の属性は、{ (30分の運動)、NOT (30分の運動)}です。
結果の属性は、{低い血圧、高い血圧}です。
あなたというインスタンスを使って、より正確に表現すれば、次になります。
ここで、原因の属性は、{ あなたの(30分の運動)、あなたのNOT (30分の運動)}です。
結果の属性は、{あなたの低い血圧、あなたの高い血圧}です。
インスタンスは、{}の中の2つの属性を同時には満せないので、反事実と呼ばれます。
ここで、あなたと全く見分けのつかない影武者が10人いて、5人は、(30分の運動)をし、5人は、NOT (30分の運動)すれば、反事実の問題はクリアできます。
あなたが1人しかいないので、反事実になってしまいますが、影武者のようにあなたが複数いれば、反事実の問題は起こりません。
影武者の場合のあなたは集合で定義できます。
あなた={影武者1、影武者2、影武者3、、、、影武者10}
この場合のあなたはオブジェクトであり、影武者n(n=1,..,10)はインスタンスです。
あなたは変数であり、影武者nは実現値です。
データサイエンスでは、変数は大文字で、実現値(数値)は、小文字で書いて区別することもあります。
「因果モデルの命題(ブリーフ)は、複数の要素(数値、インスタンス)からなる変数(オブジェクト)に対して与えられる」ことになります。
因果モデルの命題は、インスタンスに対しては作成できません。
因果モデルの命題は、対象とするオブジェクトにあてはまります。
この命題が、他のオブジェクトに当てはまる保証はありません。
ここまでは、反事実モデルの説明に書かれていることです。
以下、オブジェクトの性質を考えます。
3)ピザの画像認識
ピザのチェーン店で、アルバイトにも、ピザの焼き具合がわかるように、ピザの焼き具合を識別する画像認識システムを機械学習で開発しました。これは、生焼け、丁度良い、焼き過ぎの教師付画像を多数、準備して、AIに学習させる方法です。
ピザを沢山焼いて、画像をとって、画像に、「生焼け、丁度良い、焼き過ぎ」のタグ付けをして、その画像をAIに学習させました。
この画像を使って機械学習をさせましたが、1000枚の画像では、うまく行きませんでした。
原因を調べたところ、学習に使う画像の殆どは、「丁度良い」であって、「生焼け」と「焼き過ぎ」の画像は、少ししかありませんでした。この2種類の失敗の画像の枚数を増やしたところ、AIは、適切に「丁度良い」具合に焼けたピザを判別できるようになりました。
これから、学習効率、あるいは、データに含まれる情報量の視点が大切であることがわかります。
教科書の章末には、内容確認のための演習問題がついています。
章末問題が易しすぎる場合には、教科書のその章の内容は易しすぎる(多くの場合には、既知である)可能性が高くなります。
章末問題が難しすぎる場合には、教科書のその章の内容は難しすぎると思われます。
「教科書を読めば、内容が理解できて学習が進む」というブリーフは、学習者のレベルが、教科書の難易度に合っている場合だけです。
自分のレベルにあったテキストで学習しないと学習効率はあがりません。
ここには、ピザの焼き加減の学習と同じ構造があります。
「自分のレベルにあったテキストで学習しないと学習効率があがらない」はあたりまえかも知れません。
しかし、因果モデルで考えれば、「教科書を読めば、内容が理解できて学習が進む」というブリーフは、教科書の内容よりを丁度良く理解できる学生のグループというオブジェクトに対してしか当てはまらないことを意味します。
ここで、因果モデルのブリーフがあてはまるオブジェクトをCasual Universeと呼ぶことにします。
データサイエンスの世界観では、ブリーフは、Casual Universeに対してしか有効でありません。
高等学校までの教育は、俗に七五三と呼ばれます。
これは、授業内容についていける生徒が、小学校では、7割、中学校では、5割、高等学校では、3割しかいないことを意味します。
カリキュラムは、年齢が同じであれば、「教科書を読み、授業を受ければ、内容が理解できて学習が進む」というブリーフです。このブリーフは、Casual Universeを無視していますので、否定されています。年齢が同じ学生が、Casual Universeを形成するというエビデンスはありません。七五三のエビデンスは、年齢が同じ学生は、Casual Universeを形成しないこと示しています。
文部科学省は、年齢別カリキュラムを定めて、Casual Universeを無視した教育を強要しています。
教育効果の検証も行われていません。
つまり、カリキュラムをつくっている官僚と有識者は、科学の方法を理解していないことを意味しています。
EBPではあれば、否定される教育を行っていることになります。
このように、「自分のレベルにあったテキストで学習しないと学習効率があがらない」を、Casual Universeの選定問題の置き換えれば、問題の所在は明確になります。
4)歴史は繰り返す
歴史は繰り返すと言われることがありますが、インスタンスは繰り返しません。
繰り返す(法則性がある)としたら、それは、オブジェクトに関する命題です。
2022年2月24日に、ロシア・ウクライナ戦争が始まりました。
このとき、ロシア政治の専門家は、ロシアが戦争を始めるとは予測できなかったといっています。
これは、ロシアについて、「if A then (戦争を始める)」というブリーフを検討することになります。
2022年2月24日に戦争をはじめたロシアは、インスタンスです。
「if A then (戦争を始める)」というブリーフを検討するためには、Casual Universeを選定する必要があります。
ピザの画像認識の問題と同じように、このCasual Universeには、戦争を始めるロシアと戦争を始めないロシアの2種類のエビデンスのデータが含まれている必要があります。
ピザの画像認識が、最初は失敗したように、戦争を始めるロシアのデータの数が少ないと、因果モデルの学習(開発)は困難になります。
最近では、戦争の回数は減っていますので、戦争を始める国のデータを得ることは困難です。
Casual Universeには、戦争を始めたデータがかなり多く含まれている必要があります。
この場合には、次のような対策が考えられます。
(S1)データを遡って、戦争が頻繁にあった古い時代のデータまでを含めて、ロシアのCasual Universeを作る。
(S2)ロシアに限定することを止めて、最近、戦争を始めたことのある似たような国のグループで、Casual Universeを作る。
つまり、最近のロシアについて、年表になるインスタンスをいくら集めても、「if A then (戦争を始める)」というブリーフを作成することはできません。
「if A then (戦争を始める)」というブリーフは、インスタンスではなく、オブジェクトに対してしか有効ではありません。そのオブジェクトは、Casual Universeによって定義される訳です。
ロシア政治の専門家は、「<ロシア>が戦争を始めるとは予測できなかった」といいましたが、この<ロシア>は、2022年2月24日のロシアというインスタンスです。
問題は、Casual Universeによってオブジェクトが適切に定義されなかった点にあります。
オブジェクトとインスタンスのルーツは、普遍論争にあります。
オッカムのウィリアムなどの唯名論者は、人間の類の概念、すなわち「人間の普遍概念」は形相的に実在するのではなく、古代のアリストテレスが考えたように、実在するのは具体的な個々の個物であるとしました。
しかし、科学の方法では、実在は問題ではなく、観測可能性が重要になります。
観測可能はなものはエビデンスです。
一方、反事実モデルでは、モデルの対象になるのは、オブジェクトになります。
この2つを区別すること、科学はオブジェクトで構成されますので、インスタンスから、オブジェクトを作る方法、つまり、Casual Universeの選択が重要になります。
オブジェクトのレベルでは、歴史は繰り返しますが、インスタンスのレベルでは、歴史は繰り返しません。
筆者は、観測可能性の点で、普遍論争は、オブジェクトとインスタンスに整理されていると考えています。
今回の検討の積み残しは、次の2点です。
(S1)戦争の原因のAをどうして見つけるか。
(S2)Casual Universeの選択を効率的い行う方法があるか。