データとアルゴリズムが全て

(データとアルゴリズムのフレームにのらないルールは形而上学です)

 

8月12日の日本経済新聞によると政府は、AI事業者向けのガイドラインの骨子を決めたといわれています、その中には、「生成AI学習データ開示」が含まれるようです。

 

これを見ていると、いよいよ科学的文化のリテラシーの欠如が限界に達した気がします。

 

問題点は、3つあります。

 

1)学習データとパラメータの区別ができていません。

 

生成AIは、最初はパラメータなしで、データのみから学習して、パラメータを作ります。

 

次のステップは、このパラメータからスタートして、追加学習データを加えて、パラメータを更新します。

 

画像認識を例にとれば、最小は人間の顔のデータを使って、瞳の抽出(認識)をします。

 

次に、このモデルパラメータから出発して、ペットの写真で学習させて、ペットの瞳を認識できるモデルを作ります。これが方法1です。

 

イメージとしては、ベイズ更新に近いです。

 

方法2は、パラメータなしでペットの写真データのみから学習して、パラメータを作ります。

 

この2つの方法では、方法1の方が学習精度と学習時間の点で優れていると言われています。

 

とはいえ、ペットのデータを追加学習させる方法には、色々なアプローチがあり、ノウハウは、秘密になっています。

 

このように、パラメータを更新しながら学習する場合、大元のデータに遡った、「生成AI学習データ開示」は、非現実的です。データ開示が、文字で「まるまるのデータ」と書くだけなら簡単ですが、データセットを公開するとなると、サイズも大きくなり、扱いが困難になります。

 

2)データの現実を無視している

 

生成AIのデータは、インターネット上のデータが多いと思われますが、使用に当たっては、異常なデータを取り除いたり、重複するデータを整理するなどの事前処理を行っており、これも、ノウハウの一部になります。これも当然のことながら、非公開です。

 

どうしても公開しろと言われれば、事前処理をする前の生のデータを公開することになります。このデータの多くは、インターネットで収集できるデータです。

 

一方、特定の識別率の低いテーマについては、追加データを作成して学習させている可能性もあります。症例の少ない病気のデータなどは、そうしている可能性があります。

 

GISデータについては、測量法である範囲の地物については、データを提供するルールになっています。これは、土地の境界などのデータです。建物や間取りのデータは、測量法では、提出を義務づけられていません。

 

間取りのデータは、発注者の許可があれば、住宅メーカーのAIビジネスになる可能性があります。使いにくい間取り、火災時に非難しにくい間取りを生成AIが、判定することは容易です。火災の安全性診断は、官僚のOBの食い扶持になっているので、反対する人がいますが、労働生産性をあげるためには、生成AIに置き換える必要があります。

 

生成AIの病気の診断システムをつくる場合、症例の画像データが必須になります。

これは、患者の了解のもと、協力病院を通じて収取するしか方法がないと思われます。

 

コロナウイルスの予防注射のとき、副反応の確率を示して、注意を促されました。

しかし、筆者は、予防注射を打った後で、副反応の有無や程度について、報告を求められていません。これから、予防接種の時の副反応の確率データは、日本のデータではないと推測されます。COCOAにはこうした機能はありませんでした。

 

生成AIの病気の診断システムの症例データは公開が不可能です。

 

患者の同意書類には、政府に公開する場合は書かれていません。

 

もちろん、マイナンバーカードの医療保険のモジュールが、カルテデータの共有とセキュリティルールを決めていれば、診断システムの症例データがより簡単に入手できる可能性はあります。しかし、これは夢のまた夢です。

 

生成AIの病気の診断システムの症例データの公開が義務づられれば、日本では、生成AIの病気の診断システムは、販売できなくなります。

 

このように、ガイドラインには、実現可能性がありません。

 

3)公開された情報のチェックの方法

 

仮に、AI事業者がガイドラインに従って、情報提供した場合、その内容はだれが、チェックするのでしょうか。

 

現実問題として、ガイドラインに、従って提出されたデータをチェックできるのは、生成AIだけです。

 

マイナンバーカードすらクリア出来ない政府には、これは高すぎるハードルです。

 

仮に、提出書類が、生成AIによって診断されるのであれば、ガイドランは、生成AIで処理できる形式になっている必要があります。ガイドラインは、データとアルゴリズムのフレームにのっている必要があります。



現在のガイドラインの骨子はそうなっていませんので、ガイドラインは、形而上学になっていることがわかります。

 

ここにあるのは、形式的な文書を提出すれば内容は問わないというドキュメンタリズムです。

 

4)ドキュメンタリズムの問題点

 

東京: 文部科学省科学技術・学術政策研究所(NISTEP)の調査によると、日本は質の高い研究論文のランキングで2023年は13位に下落し、さらにイランに抜かれる結果となっています。

 

これは、文部科学省の政策通りの結果です。

 

文部科学省は、1990年代に、大学に業績主義を取り入れ、審査付論文の本数で機械的に評価するルールを導入しました、これは、論文の内容(重要性)がわかっていない人間にも使えるルールです。このルールは、論文の内容には関係しませんので、ドキュメンタリズムです。論文の内容ではなく、本数が足りないと、教授に昇進できませんので、ともかく、内容に関係なく、論文の本数を増やすことが主流になります。

 

データサイエンスでは、論文の汎用性のグレードが別れていて、最低の症例研究と最高のメタアナリシスの間が、5段階程度にわかれています。この基準ではメタアナリシスの結果は、症例研究の数十倍の価値があります。

 

しかし、審査付の論文の本数というドキュメンタリズムの基準では、この異なるグレードの論文がどちらも1本になってしまいます。

 

一方、引用回数の多い論文は、メタアナリシスです。つまり、ドキュメンタリズムは、引用度の高い、難易度の高い論文を封印しています。

 

その結果、日本は質の高い研究論文のランキングは、イランに抜かれて、13位になっています。

 

田中 圭太郎氏は次のように指摘しています。(筆者の要約)

 

 

国立大学法人法の改正では、次期学長の選考方法自体を学長選考会議が決められるようになっています。委員の多くは現学長が任命するため、現学長の独裁が可能になっています。

 

山形大学では2007年、文科省事務次官を務めていた結城章夫氏が、退任のわずか20日後に学長に選出されています。

 

 

これは、ドキュメンタリズム(形而上学)が更に強化され、科学が撤退していることを意味しています。

 

5)まとめ

 

「AI事業者向けのガイドラインの骨子」と、「日本は質の高い研究論文のランキングは、イランに抜かれて、13位」には、どちらも、ドキュメンタリズムという同じ原因があります。

 

これは形而上学であって、科学の方法ではありませんので、日本は科学後進国に突き進んでいます。



引用文献

 

論文ランキングで、イランが日本を追い抜く 2023/08/13 Ameba News

https://www.arabnews.jp/article/japan/article_97208/

 

日本の最高学府の「大崩壊」が始まった…京大ほか国公立大で起きている「ヤバすぎる事態」2023/02/23 現代ビジネス 田中 圭太郎

https://gendai.media/articles/-/105878