20)虐待判定システム
読売新聞は、次のように報道しています。(筆者要約)
<
国が2021年度から約10億円をかけて開発を進めた児童相談所の職員を補助する「虐待が疑われる子どもの一時保護を巡り、人工知能(AI)にその必要性を判定させるシステム」は、テスト段階で判定ミスが6割に上り、こども家庭庁は、AIは虐待の判断にはなじまず、実用化は困難と結論付けた。
システムは、搭載したAIに約5000件の虐待記録を学習させた。傷の有無や部位、保護者の態度など91項目に情報を入力すると、虐待の可能性が0から100の点数で表示される。
計10自治体の児相の過去の虐待事例100件のリスクを試作モデルで、判定させて検証した。虐待事例100件中62件では、虐待が「著しく低い」という判定結果になった。
同庁は今年度の開発を保留して見送りを決定した。AIの発展状況を見ながら、再開するかどうかも含め検討する。
国立情報学研究所の佐藤一郎教授は「AIは何でもできる『魔法の杖(つえ)』ではない。開発前に実現可能性を吟味し、綿密に制度設計しなければうまくいかない。AIの活用は官公庁でも進むとみられるが、今回の失敗を他省庁や自治体とも共有し、今後に生かす必要がある」と指摘する。
>
<< 引用文献
10億円かけた虐待判定AI、こども家庭庁が導入断念…ミス6割で「実用化困難」 2025/03/03 読売新聞
https://news.yahoo.co.jp/articles/2e93e428378fcb71b80fb0aa5bd1d4b5606fe0d7
>>
この記事を理解することは、非常に困難です。
「虐待が疑われる子どもの一時保護を巡り、人工知能(AI)にその必要性を判定させるシステム」とは、単純に考えれば、「虐待と虐待ではない」を判別する判別関数あるいは、2値分類器を設計する課題です。
これは、AIとは関係がありません。
5000件の虐待記録がどのようなデータであるかは書かれていません。
「91項目に情報を入力」すると書かれているので、5000件のデータに、91属性の2値データが含まれていたと仮定します。
この91項目が全て独立であると仮定します。
そうすると、全ての組み合わせは、「2の91乗=2E27(28桁)」になります。
「一兆=1,000,000,000,000=10の12乗」なので、28桁にするには、1兆x1兆x10000データが必要になります。
使っているデータは、5000件なので、これで、学習できる訳がありません。
こう考えると、91項目が独立ではないと思われます。
そうすると、前処理として、次元縮約が必要になります。
テンソル縮約などが、候補になります。
5000件のデータには、観測値がいくつ含まれていたのかも不明です。
児童相談所の職員の判断結果は、観測データではないので、使えないはずです。
<100件中62件では、虐待が「著しく低い」>という表記からは、システムの判定と、児童相談所の職員の判断を比べているように見えます。
児童相談所の職員の判断は、児童相談所と個人によってばらつきます。
こども家庭庁は、「児童相談所の職員の判断は正しく、システムの判定の評価基準になるという前提」をおいていますが、この前提には、根拠はありません。
たとえば、同じ虐待事例100のデータを、ある児童相談所の職員Aと別の児童相談所の職員Bが判定した場合に、判定結果が一致することはありません。使うデータと判定アルゴリズムがきまっている場合には、判定結界が一致します。しかし、この場合には、判別関数が分かっているので、判別関数をコーディングすればよいだけで、AIで解くべき問題は存在しません。
5000件のデータに、児童相談所の職員の判断データが含まれている場合、システムには、データのブレ(ノイズ)が反映されます。
パラグラフの世界では、新聞記事が理解不可能です。
新聞記事は、段落の世界になっています。
21)混同行列
AIを開発する場合には、5000件のデータを、学習データと検証データに分けます。
そして、検証データによって、AIの精度が評価されます。
この目的には、混同行列が使われます。
学習データと検証データを、仮に、9対1に分けた場合、4500件のデータで学習をして、500件のデータで検証します。
検証は、予測値と実測値を比べます。
予測では、虐待あり<(予)虐待あり>のうち、検証データで、虐待があった件数は、<(実)虐待あり>に、検証データで、虐待がなかった件数は、<(実)虐待なし>にカウントされます。
予測では、虐待なし」<(予)虐待なし>のうち、検証データで、虐待があった件数は、<(実)虐待あり>に、検証データで、虐待がなかった件数は、<(実)虐待なし>にカウントされます。
こうして、500件の検証データは、混同行列の4つの変数のどれかに、カウントされます。
混同行列は次になります。
(予)虐待あり (予)虐待なし
(実)虐待あり TP FN
(実)虐待なし FP TN
新聞報道の<虐待事例100件のリスクを判定したところ、100件中62件で「著しく低」かった>を混同行列で考えます。
虐待事例100件
TP+FN=100
100件中62件で「著しく低い」
FN =62 TP=38
しかし、この情報には、FPとTNが含まれませんので、システムの精度の評価はできません。
英語版のウィキペディアの「混同行列(Confusion Matrix)」から、混同行列の「2項分類器の標準的な混同行列テンプレート」を引用します。

図1 2項分類器の標準的な混同行列テンプレート
システム開発の検証には、混同行列が使われます。
混同行列からは、次のような評価指標が求まります。
正解率(Accuracy)
精度・適合率(Precision)・陽性反応適中度(positive predictive value)
再現率(Recall)・感度(Sensitivity)
陰性的中率(Negative predictive value)
特異度 (Specificity)
F1スコア(F1 Score)
F-βスコア(F-beta Score)
マシューズ相関係数(Matthews Correlation Coefficient)・ファイ係数(Phi coefficient)
バランス正解率(Balanced Accuracy)
驚くべきことに、疫学の場合の計算は、システム開発の検証の計算とは異なります。
混同行列と疫学の用語には、次の対応があります。
Predicted condituon=>原因、暴露、投薬
Actual condition=>結果、発病、投薬効果
疫学では、混同行列という用語は使いません。行列の縦と横が入れ替わっていますが、疫学でも混同行列を使います。
典型的な喫煙と肺がんの関係の混同行列は、次になります。
肺がんあり 肺がんなし 合計
喫煙あり TP FP TP+FP
喫煙なし FN TN FN+TN
図2 疫学の混同行列の例
疫学では、サンプリングバイアスを考えます。
システム開発の検証では、サンプリングバイアスを無視していますが、筆者は、これは、問題であると考えます。
疫学では、「前向き研究」と「後ろ向き研究」を区別します。
コホート研究(前向き研究)
コホート研究とは、ある因子(環境・食べ物・嗜好品等、原因)へのばく露がある群(ばく露群)とばく露がない群(非ばく露群)での病気の発生状況(結果)を総計的に比較する研究です。
「原因=>結果」の向きに研究デザインをすること、介入が始まるまえに(結果がで出てから)、研究デザインすることが、「前向き研究」の条件です。
ケースコントロール研究(後ろ向き研究)
ケースコントロール研究とは、疾患(結果)に罹患している人(ケース)と疾患(結果)に罹患していない人(コントロール)を集め、ケースとコントロール間の暴露要因(喫煙歴などの原因)の違いを検討する研究手法です。
「結果=>原因果」の向きに研究デザインをすること、結果が出てから、研究デザインができることが、「後ろ向き研究」の条件です。
図2で説明します。
疫学の混同行列をつくる調査研究は、縦軸(原因)に着目して調査をする方法と横軸(結果)に着目して調査をする方法に分かれます。縦軸(原因)に着目して調査をする場合には、原因のサンプリング比率をデザインすることができます。一方、結果に着目して調査をする場合には、原因のサンプリング比率をデザインすることができません。
疫学でよく使われるリスク指標には、リスク比とオッズ比があります。
リスク比(相対危険度、Relative Risk:RR)
喫煙者の発病率(リスク) = TP/ (TP+FP)
非喫煙者の発病率 (リスク)= FN /(FN+TP)
相対危険度(リスク比)=喫煙者の発病率 / 非喫煙者の発病率
= TP x (FN+TP) / FN (TP + FP)
オッズ比
オッズ比(Odds Ratio:OR と略します)とは、相対危険度と同じように、ある要因がある事象に対して関連性があるか否かを示す指標のひとつです。
分子=肺がん患者のうち、喫煙者と非喫煙者の比={TP÷(TP+FP)}÷{FP(TP+TB)}=TP/FP
分母=健康な人のうち、喫煙者と非喫煙者の比={FN÷(FN+TN)}÷{TN÷(FN+TN)}=FN/TN
オッズ比=分子/分母=(TPxTN)/(FP × FN)
新谷歩氏の説明が分かりやすいので引用します。
<
ケースコントロール研究では、ケース(肺がんなどアウトカムの起こった集団)に対して、アウトカムの起こっていない同数(同数でない場合もある)のコントロールからデータを集めてきて,暴露(喫煙など)があったかどうかを調べる研究である。ケースコントロール研究では、アウトカムの起こった人のデータを優先的に集めるため、そもそもリスク比が計算できない。ケースコントロール研究ではリスク比ではなくオッズ比を用いると、母集団のリスク比がうまく近似できるとして、多用されるようになった。
オッズ比はケースコントロール研究以外でも多用される。それは、リスク比という指標が数学的に厄介だからである。リスク比にはシーリングが起こる。 例えば、非喫煙者の肺が ん リスクがすで に90%を超えるような場合、喫煙者の肺がん発症率がいくら 100%であっても、リスク比は最大で 1.1にしかならない。比較群のリスクによってリスク比はそれ以上大きくならない値(シーリング)が起こってしまう。シーリングによって、コンピュータによる計算がうまくいかず、昔の非力なコンピュータでは、特に多変量解析のような量の多い計算を行う場合、結果が出ないことが多かった。それに比べ、オッズ比を計算するロジスティック解析の計算は、安定して答えが導き出せたのである。
>
<< 引用文献
オッズ比とリスク比 新谷 歩 日本歯科医師会雑誌 Vol. 74 No. 9 2021-12
https://med-statacademy.com/storage/moviefile/192/NcgmJLgMVBMS2v0PgbAh12MKzEdAkeL31Rgbzztj.pdf
>>
社会科学では、問題が起こってから、問題の起こった事例を調査します。しかし、この方法では、サンプリングバイアスを回避できません。リスク比は求められません。
EBPMのエビデンスは、オッズ比ではなく、リスク比を使うべきです。
これは、新しい政策介入の前に、研究デザインができていないと政策評価のエビデンスが得られないことをしめしています。
政治家は、「これから、有識者会議にはかってよく検討します」といいます。この検討は、後ろ向き研究になるため、サンプリングバイアスを回避できません。
統計学で考えれば、結果が出た後では、「よく検討はできない」と言えます。
検討は、結果が出る前に、「前向き研究」で行う必要があります。
EBPMでは、RCTがベストですが、RCTを使えない場合でも、サンプリングバイアスの補正が必須になりますので、「前向き研究」が原則になります。
図3に、金融緩和政策の混同行列を示します。
経済成長あり 経済成長なし
金融緩和あり TP FP
金融緩和なし FN TN
図3 金融緩和政策の混同行列
金融緩和政策は、政策効果のコホート研究(前向き研究)が行われていれば、リスク比で評価できます。
実際には、「前向き研究」は行われませんでした。
つまり、政府には、前向き研究によって、政策効果のエビデンスを計測する意図がなかったといえます。
ケースコントロール研究(後ろ向き研究)の場合には、オッズ比で、金融緩和政策の評価ができます。しかし、この方法は、エビデンスとしては、弱いです。
こども家庭庁は、TPとFPだけのデータを扱っていました。
金融緩和の功罪を論じている経済学者(日銀も含めて)も、混同行列を扱っていません。
過去10年、金融緩和がありました。したがって、「金融緩和あり」が事実で、「金融緩和なし」が、反事実になります。
EBPMには、反事実が必須の思考パターンになります。
22)まちがいさがし
こども家庭庁は、AIは虐待の判断にはなじまず、実用化は困難と結論付けました。
つまり、こども家庭庁は正しく、AIは間違っているという主張です。
しかし、この主張には、エビデンスはありません。
カーネマンは、「ノイズ」のなかで、法律家の判断が大きくぶれるという研究結果を紹介しています。それから考えると、児童相談所の虐待の判断にも、個人によるかなりのバラツキがあると思われます。
国立情報学研究所の佐藤一郎教授は、AIシステムは開発前に実現可能性を吟味し、綿密に制度設計しなければうまくいかない。今回の失敗を他省庁や自治体とも共有し、今後に生かす必要がある」と指摘しています。
佐藤一郎教授の指摘は、AIにとどまりません。この指摘は、すべてのコンピュータシステムや、EBPMにあてはまります。
たとえば、マイナンバーカードは、「開発前に実現可能性を吟味し、綿密に制度設計していない」のでうまくいくはずがありません。
こども家庭庁と10自治体の児童相談所には、統計学のメンタルモデルがある人がいなかったと思われます。
混同行列が理解できていれば、10億円の無駄(まちがい)はでませんでした。
法度体制のモデルで考えれば、10億円の無駄が出た原因は、パラグラフの論理を否定した段落の論理にあります。
佐藤一郎教授は、「今回の失敗を他省庁や自治体とも共有し、今後に生かす」ことができると考えています。
しかし、筆者は、段落の論理が追放されて、パラグラフの論理にならない限り、「今回の失敗を他省庁や自治体とも共有し、今後に生かす」ことはできないと考えます。
無謬主義で考えれば、10億円は、AIがバカだったからであって、誰も、責任をとる必要はないことになります。
この無謬主義の立場に立てば、佐藤一郎教授の言う「今回の失敗」は存在しないので、責任問題は生じません。
無謬主義は、段落の論理であり、誰も論理的に原因追及をしてはいけないのです。
問題は、担当者が熱意をもって仕事をしたことに、「共感」できるか(段落の論理)になります。
混同行列は、間違い探しの手法(科学の手法)です。これは、無謬主義(法度体制)に反するので、封印されます。
AIを悪者にしておけば、誰も、責任をとる必要はありません。
もちろん、無謬主義で、間違い探しをしなければ、10億円どころか、膨大な無駄(効果のない政策)が放置され増税が止まらないことになります。これが、現状といえます。
段落の論理では、共感(空気を読むこと)ができない人は、村八分になります。
パラグラフの論理では、因果モデルの改善に協力する人は、有能であると判断されます。間違い探しをする人が歓迎されます。
筆者は、パラグラフの論理の世界にいます。
段落の論理の住民は、10億円の無駄について論ずることは、「空気が読めない人間」とみなすと思います。
しかし、段落の論理では、間違いを探して改善しませんので、進歩はありません。
日本語版のウィキペディアは、「失敗の本質 日本軍の組織論的研究」について、次のように要約しています。
<
結論で、日本軍はインフォーマルな環境に過度に適応し、水面下の官僚的組織原理と属人ネットワークで行動し、作戦参謀の来島参謀の「突つけば穴だらけ、みな十分に反省している」と、内輪の論理で決まってしまい、失敗の総括を阻害して、学習棄却(かつて学んだ知識を捨てた上での学び直し)を通して、何一つ自己革新と軍事的合理性の追求が出来なかったとした。
>
この内輪の論理が、段落の論理です。
「失敗の本質」には、肝心なことが欠けています。
それは、段落の論理からぬけだすためには、パラグラフの論理を採用しなければならないということです。
混合行列が理解できれば、エビデンスに基づく「自己革新と合理性の追求」ができます。
混合行列を使わずに、エビデンスに基づく「自己革新と合理性の追求」はできません。
「共感」よりも、「間違い探し」を優先する価値観に切り替える必要があります。
この切り替えは、法度体制(年功型雇用)を破壊します。
なので、非常に大きな抵抗勢力がおきます。