機械学習とオリンピック開催 - computer

オリンピックまで、あと2か月になって、IOCと政府はオリンピックを開催するといっています。

この問題を、機械学習によるオリンピック開催時のコロナウイルスの感染予測問題として考えてみます。

機械学習をするには、過去のデータを訓練データ（教師データ）、検証データ（テストデータ）に分けます。そして、訓練データを使って学習させて、検証データで予測の精度を確かめます。

過去1年であれば、2：10の比であれば、１0カ月を、訓練データ、2カ月を検証データに使ってモデルを作ります。

このとき、できるモデルは過去の実績を反映していることになります。

過去の実績は、おおよそ次のようなものです。

感染者が拡大した場合には、緊急事態宣言以外の対策はなく、その効果も次第に弱まっている。
感染者数をほぼゼロになるまで、抑え込んだ実績はない。経路不明率は6割近い。
ワクチンの接種率は、先進国の中では最低である。
スマホアプリは効果が疑わしい。目に見えて効果があるとはいえない。
PCR検査数はほどんど増えていない。

こうしたデータを使って、できたモデルで、2カ月後を予測すれば、次のようになります。

PCR検査が不足して、感染者を把握しきれない。
6割の経路不明率が、海外からの訪問者にも発生すれば、変異株を押さえることはできず、変異株が蔓延する。
感染者数の拡大を抑え込むことは出来ずに、感染者数が拡大する。
ワクチンの接種率は、あまり高くならない。
したがって、重症者が急増する。

以上は、筆者の偏見ではなく、過去のデータを使って学習させれば、こうなるという話です。

過去のデータが異なった場合、例えば、1月から3月の間に

PCR検査が急増する。
ワクチンの接種率が飛躍的に上がる。
感染者数がほぼゼロになった。

というようなデータがそろっていれば、機械学習のモデルは、異なった予測をするでしょう。しかし、過去の実績データは、そうはなっていません。

オリンピックに関連する大臣級の政治家が、毎日のように、オリンピックはできるといっていますが、どのような発言をしても、過去の実績データは変わりませんから、機械学習の予測では、発言に関係なく、だめ予測が出されます。発言の趣旨をどこかのAIスピーカに聞けば、この場合には、なんという返事が得られるのでしょうか。