ABテスト・費用対効果分析～2030年のヒストリアンとビジョナリスト

（科学方法の基礎は比較することです）

「数理資本主義の時代」の資料の取りまとめが、権威主義で、科学的な方法論になっていないと指摘しました。

このことは、政策決定が、権威主義で、科学的な方法論になっていない可能性を示唆します。

今回は、この問題を考えてみます。

１）データサイエンスと社会科学・人文科学

最初に、科学とは何かについて、ここでは、HeyらのThe Fourth Paradigm: Data-Intensive Scientific Discoveryに準拠することにします。

パラダイム1〜3が順番に、経験的証拠、科学理論、計算科学で、4番目のパラダイムがデータサイエンスです。

2009/12/15のFERMATを参考に、補足します。

（１）第１パラダイム：　empirical（経験＝実験的手法）

観察や観測によって、データを集め、それらを経験的に処理していく。

（２）第２パラダイム：　theoretical(理論的手法)

観測データ群を分析し、その背後にある論理・法則をつまびらかにしていく。

微分方程式でモデルを記載して、解析解を求める。

（３）第３パラダイム：　computational（計算処理手法）

解析解が得られない非線形な微分方程式を、コンピュータで解く、シミュレーション手法。

（４）第４パラダイム：　data exploration, date-intensive computing

膨大な１次データ、２次データ、の存在と、計算能力を前提にしたデータサイエンスの研究手法。

ここには、データ共有、知識共有の手法も含まれる。

「数理資本主義の時代」の取りまとめは、かなり権威主義的ですが、第１パラダイムに基づいています。

この取りまとめに対して、第２パラダイムと第３パラダイムは使えません。

つまり、第２パラダイムと第３パラダイムは、適用範囲が限定的で、社会科学・人文科学では、ほとんど使えないのです。経済学の一部に例外があります。

第2のパラダイムでは、現象を微分方程式で記載します。しかし、解析解が求まるのは、ごく一部でした。イメージでいえば、10％以下と考えてもらってもよいと思います。

第3のパラダイムで、微分方程式で記載できれば、残りの90％の問題でも、コンピュータで、答えが得られるようになりつつあります。まだ、現時点でも、計算能力の限界から、時間がかかりすぎて、実用上解けない問題も残っています。

第3のパラダイムからみれば、第2のパラダイムは、準備段階になります。

同じように、第4のパラダイムの準備段階であるプレ・データサイエンスの時代がありました。

プレ・データサイエンスは、古典的な統計学で、解析解も得られないので、数表を使っていました。

ですから、プレ・データサイエンスは、社会科学・人文科学には、影響を与えませんでした。

第４パラダイムは、データのあるところであれば、全ての分野に適用可能です。

つまり、第４パラダイムが出現したことにより、社会科学・人文科学の分野ごとの独自の研究手法はなくなっています。自然科学でも、微分方程式で記載できない分野では、従来は、第１パラダイムをつかっていましたが、現在では、日本はともかく、欧米では、第４のパラダイムにシフトしています。

つまり、全ての学問分野で、第４のパラダイムなしには、先に進めなくなっています。

人文科学で、第４のパラダイムは不要であると考える人もいるかもしれません。たとえば、小説を書くのに、データサイエンスの研究手法は不要であると考えるかもしれません。

しかし、トルストイの時代には、娯楽は、小説、オペラ、演劇でした。どこでも楽しめる娯楽は、小説しかありませんでしたので、小説家の社会的な地位は、非常に高かったです。それが、現在では、映画、オンラインゲームにとってかわっています。今後は、メタバースが、中心になるでしょう。クリエイターは、小説を書くより、メタバースで活躍する方を選ぶでしょう。

現在の日本では、文学部の博士課程を卒業した、就職浪人がいます。この問題に対して、専門知識があるのに、社会が受け入れないのは問題であると主張する専門家もいますが、筆者には、その主張は問題のすり替えにしか見えません。文学部の博士課程で、メタバースのコーディングができるようなデータサイエンスの専門知識が身についていれば、就職に困るとは思われないからです。

このように、第４のパラダイムは、全ての学問分野や専門知識に、破壊的な影響力を及ぼしています。

２）ABテスト

第４のパラダイムは、専門知識に、破壊的な影響力を持っていますが、それは、ビッグデータや、AIのことであって、一般の社会生活とは無縁と考えている人も多いとおもいますので、ここでは、古典的なデータサイエンスの手法であるABテストを例に、第4のパラダイムの威力を説明します。

ABテストとはAとBの2つのバリアントを使用したランダム化実験です。（注１）

よく知られているのは、食品メーカーが、加工食品の味付けを工夫したり、パッケージを工夫したりする場合、1パラメータだけの条件をAとBに設定して、どちらが良いかを選択する問題です。塩味の塩分濃度の設定がその例です。

基本は、どれかのパラメータだけを変えて、それ以外のパラメータは同じにすることですが、実際には、それはできないので、ランダム化実験を行います。（注２）

ランダム化をどこまで実現できるかは、大きな問題点で、それに失敗するとバイアスのために、間違った答えが得られることがありますが、複雑になるので、ここでは、その問題は、無視できるとして、ランダム化を無視して、話を進めます。

そうすると、A/Bテストの基本は、AとBを比較することです。

「数理資本主義の時代」は、数学のスキルがないと、企業の収益が上がらない、所得が低くなるという主張ですから、ABテストで言えば、A=「数学のスキルがある」、B=「数学のスキルがない」というバリアントを比較することになります。

第４パラダイムで考えれば、「数理資本主義の時代」のレポートには、このABテストの結果が含まれているはずだということになります。そうでなければ、エビデンスのない、怪しいレポートであるということになります。

もちろん、実際の「数理資本主義の時代」のレポートには、ABテストの結果は含まれていません。それも問題なのですが、それ以前に、ここで問題にしたいのは、「数理資本主義の時代」のレポートに、ABテストのようなデータサイエンスの手法に基づく発想自体がない点です。

たとえば、A=「数学のスキルがある」、B=「数学のスキルがない」が重要であるのであれば、ABテスト次のような派生形が考えられます。

ＡA=「高等学校のカリキュラムを数理カリキュラムで分離しない」

BＢ=「高等学校のカリキュラムを理系と文系に分ける」

筆者は、思考実験のレベルでも、BＢを示唆するエビデンスを思いつきません。

ちなみに、言うまでもなく、ＡＡが世界標準で、ＢＢは日本のローカルルールです。

このように、ＡＢテストた、ＡＢテストの派生形を考えれば、何をすべきかがわかります。

この対極には、「数理資本主義の時代」をキーワードにすれば、予算獲得が容易になるというアプローチがあります。

３）現状の課題

「数理資本主義の時代」ばかりを取り上げましたので、現状の問題を、ＡＢテストの視点で振り返ってみます。

政策決定にエビデンスがないことは問題ですが、エビデンスの付け方には、色々なレベルがあります。

一番簡単な手法はＡＢテストと思われますので、最低限ＡＢテストに配慮することをルールにするだけで、劇的な政策の効率向上が見込めます。

３－１）コロナ対策

新型コロナウイルス対策の国の持続化給付金の詐取が摘発されています。

コロナ予算77兆円の中で、持続化給付金や雇用調整助成金、特別貸し付けなどの支援策を通じて、中小企業支援に26兆円が支払われています。

コロナ対策は、雇用の確保を優先して、ドイツが行っているような失業と再教育というステップを採用しませんでした。

こうした場合にもABテストは使えます。

A＝「雇用と現在の企業の存続を優先する予算」

B=「解雇と再教育、企業の入れ替えを優先する予算」

このABについて、将来のGDPや、1人当たりGDP（あるいは給与の中央値）などの値を比較することは、現在では、経済モデルを使えばできます。

第４パラダイムに基づく政策決定は、このようなABテストの結果を参考に決定すべきです。

評価時点の設定が重要で、3年から5年先までを考えれば、Bを差し置いて、Aがえらばれることはないと思われます。

現在は、ABテストの結果を公表していませんが、仮に、ABテストの結果を公開しても、選挙で、Aの政策が選択されるのであれば、それは、科学的なリテラシーの問題なので、義務教育に問題があると思われます。

３－２）地域活性化

地域活性化も、優良事例を紹介して表彰することは、第1のパラダイムの世界です。

地域によって前提条件が異なりますので、他の地区の事例をコピーしてもダメです。

青森市のショッピングモールアウガは、膨大な税金を投入して、一時は、地域活性化の優良事例として取り上げられて、見学者が絶えまんでしたが、補助金が投入できなって、民間施設は赤字で撤退して、現在は、市役所が入っています。

こうして事例をみると、地域活性化や、都市計画には、ABテストのような第4のパラダイムの導入が不可欠と思いますが、自治体の公開している都市計画で、政策選択のためのABテストが含まれている事例を知りません。

なお、内閣官房では、地域活性化のために「地域活性化伝道師」制度をもうけていますは、これは、名前からして、地域活性化が、第１パラダイムに依存していて、第4のパラダイムにシフトしていないことを示しています。他にも「観光カリスマ百選」制度があり、担当者の頭の中には、ヨーロッパ中世のような権威主義が根付いているのではないでしょうか。仮説と検証、ABテストといった近代科学以降の科学の視点は、全く見えません。

４）費用対効果分析

ABテストでは、2つの条件を比較します。３）節で述べた事例は、政策選択の場合でしたが、公共事業では、ABテストの代わりに費用対効果分析を使うことが定められています。

しかし、現在の費用対効果分析では、経済学的に誤った運用が続けられています。

公共事業は、規模が大きいので、売り手と買い手の数が少なく、市場原理が働きにくい特徴があります。

公共事業に入札をかけても、応募するのは数社で、選択の幅は狭いです。

さらに、事業の効果の判断主体も曖昧です。

普通の商品は、高価で高機能と安価で低機能のものがあり、買い手は、その中で選択をします。

公共事業では、この機能のレベルとコストのバランスを住民が選択できません。（注3）

この問題を回避する工夫が、費用対効果分析です。

費用対効果分析では、ABテストと同じように、A案とB案を比較して、パフォーマンスのよい方を選びます。

予算に制限があり、A地区とB地区のどちらを先に整備すべきか検討する場合にも使えます。

これが、経済学的に正しい費用対効果分析です。

比較指標は、「パフォーマンス＝便益/費用」です。

現在、現実には、パフォーマンスの最大化ではなく、「パフォーマンス>1.0」のルールが使われています。

このルールでは、パフォーマンス＝1.2のA事業と、パソ―マンス＝2.0のB事業の間に、優先順位はありません。

こうした場合、過去には、優先順位は、政治家が決めていました。大野伴穆が、東海道新幹線の駅を、僻地の岐阜羽島に誘導したのが有名な例です。

費用対効果分析は、正しく運用すれば、利益誘導型の政治を防止する効果もあります。

しかし、現在では、「パフォーマンス>1..0」のルールすら守られていません。

地方に行くと、自動車の少ない道路が多くあります。人口が減少して、高齢化しているので、交通量が減っています。その結果、順次整備計画のリストに上がっていた計画道路のパフォーマンスが、1.0を切る事例が頻発しています。つまり、計画通りに整備ができないのです。この問題に対しては。地域補正係数を設定して、パフォーマンスが1.0未満でも、事業化できるようにしています。一方では、道路建設に伴い木を伐採した場合には、そのコストは、木材の価格としては評価されていますが、樹木や土壌の炭素貯留機能などの生態系サービスの評価は十分になされていません。これは、生物多様性条約の努力目標違反です。

同様に、海岸堤防の場合には、前浜の経済効果は評価されていません。塩性湿地の復元事業では、塩性湿地が復元すると海岸堤防の前に大きな前浜ができ、防災効果が期待できます。欧米の最近の研究では、海岸堤防のかさ上げよりも、塩性湿地の復元の方が、大きな経済効果が見込まれる例もあります。海岸堤防が満潮による湛水を阻害すると、塩性湿地の環境復元ができないので、欧米では、部分的な交流のある穴あき堤防の整備も行なわれています。最近は、災害があると、防災機能を高めるばきであると主張されますが、今まで通りの整備では、自然破壊が進むだけで、大きな効果は期待できません。この問題は、費用対効果分析に手を付けないと進みません。

もちろん、A案とB案の比較をするにはコストがかかります。特に、生態系サービスの評価を行うには、土地利用や生態系の現況のデータが必要です。しかし、GISでベースの整備の結果、欧米では、このコスト高の問題は、既に、コストダウンが可能になって、クリアされています。環境経済学は、生態系サービスの評価ができるように、片足をGISの上にのせて、第４パラダイムに基づく学問展開になっています。環境も含めたGISデータ整備は、日本では、ロードマップすら、出来ていません。

注１：

A/Bテストのウィキペディアの説明は、日本語版と英語版で大きく異なります。

日本語版の[注釈 1]は、次の文献を指しています。

・西内啓『統計学が最強の学問である』ダイヤモンド社、2013年

統計学の仮説検定は、インターネットマーケティングの比較テストを包含するので、狭義と広義の使い方が逆に思われます。ここでは、英語版を使っています。

A/Bテスト（ウィキペディア日本語）

狭義ではABテストは仮説検定を指す俗称である[注釈 1]が、広義のABテストはインターネットマーケティングにおける施策の良否を判断するために、2つの施策同士を比較検討する行為全般を指す。ただし、無基準にAとBをとりあえず作成して比較し判断する、という意味ではない。

A/B testing（From Wikipedia, the free encyclopedia英語）

A / BテストA/B testing（バケットテストbucket testingまたはスプリットランテストsplit-run testingとも呼ばれます）は、ユーザーエクスペリエンスの調査方法です。A / Bテストは、AとBの2つのバリアントを使用したランダム化実験で構成されます。統計的仮説検定、または統計分野で使用される「 2標本仮説検定」の適用が含まれます。A / Bテストは、単一変数の2つのバージョンを比較する方法です。通常、バリアントAに対する被験者の応答をバリアントBに対してテストし、2つのバリアントのどちらがより効果的かを判断します。

注２：

ランダム化は万能ではありません。カップ蕎麦のメーカーは、関東と関西で、味付けをかえて、塩分濃度に差をつけています。こうした区分は、ランダム化実験の手順を検討する中で見えてきますが、第１のパラダイムでは、見つかることは稀です。

注３：

欧米では、日本のような一律の整備水準ではなく、ステークホルダーをつかったアプローチが多用されています。一律の整備と規制には、経済的な合理性がありません。

　引用文献

数理資本主義の時代～数学パワーが世界を変える～

https://www.meti.go.jp/shingikai/economy/risukei_jinzai/20190326_report.html

科学研究手法の「第四のパラダイム」としてのData-intensive Computing　2009/12/15 FERMAT

http://www.defermat.com/blog/2009/000671.php

The Fourth Paradigm From Wikipedia, the free encyclopedia

https://en.wikipedia.org/wiki/The_Fourth_Paradigm

The Fourth Paradigm: Data-Intensive Scientific Discovery； Tony Hey , Stewart Tansley , Kristin Tolle , Jim Gray;Published by Microsoft Research; October 2009; ISBN: 978-0-9825442-0-4

https://www.microsoft.com/en-us/research/wp-content/uploads/2009/10/Fourth_Paradigm.pdf