オリンピックまで、あと2か月になって、IOCと政府はオリンピックを開催するといっています。
この問題を、機械学習によるオリンピック開催時のコロナウイルスの感染予測問題として考えてみます。
機械学習をするには、過去のデータを訓練データ(教師データ)、検証データ(テストデータ)に分けます。そして、訓練データを使って学習させて、検証データで予測の精度を確かめます。
過去1年であれば、2:10の比であれば、10カ月を、訓練データ、2カ月を検証データに使ってモデルを作ります。
このとき、できるモデルは過去の実績を反映していることになります。
過去の実績は、おおよそ次のようなものです。
-
感染者が拡大した場合には、緊急事態宣言以外の対策はなく、その効果も次第に弱まっている。
-
感染者数をほぼゼロになるまで、抑え込んだ実績はない。経路不明率は6割近い。
-
ワクチンの接種率は、先進国の中では最低である。
-
スマホアプリは効果が疑わしい。目に見えて効果があるとはいえない。
-
PCR検査数はほどんど増えていない。
こうしたデータを使って、できたモデルで、2カ月後を予測すれば、次のようになります。
-
PCR検査が不足して、感染者を把握しきれない。
-
6割の経路不明率が、海外からの訪問者にも発生すれば、変異株を押さえることはできず、変異株が蔓延する。
-
感染者数の拡大を抑え込むことは出来ずに、感染者数が拡大する。
-
ワクチンの接種率は、あまり高くならない。
-
したがって、重症者が急増する。
以上は、筆者の偏見ではなく、過去のデータを使って学習させれば、こうなるという話です。
過去のデータが異なった場合、例えば、1月から3月の間に
-
PCR検査が急増する。
-
ワクチンの接種率が飛躍的に上がる。
-
感染者数がほぼゼロになった。
というようなデータがそろっていれば、機械学習のモデルは、異なった予測をするでしょう。しかし、過去の実績データは、そうはなっていません。