実効再生産数と東京の第2波対策～コロナウィルスのデータサイエンス（８０）

追記訂正：6月14日18時15分

Rt-Japanの実効再生数サイトがわかったので、追記しました。

合わせて本文の一部修正しました。

東京都の14日のデータを図に追加しました。

14日のデータは急増に見えますが、実効再生算数から見ると妥当で、実効再生算数は有効に思われます。

東京都の第2波の課題

小池知事が出馬をきめたので、東京都のコロナウィルス対策が、選挙対策になってきました。

これは、アメリカのトランプ大統領が、大統領選挙をにらんだコロナウィルス対策をしていることと重なります。

薬やワクチンを作るといった医学的な対策を別にして、政治手な対策手法は、次の２つしかないと思います。

行動制限を「強める・弱める」の調整
補助金・失業補償金の配布

台湾のように、ITに各段に優れている人がスタッフにいれば、安価で急速に有効なITシステムを構築するという別の選択肢もあるかもしれませんが、そうでなければ、選択は上に限定されます。

　選挙対策には、行動制限を弱める方向に進みます。

図１は東京都の感染者数の推移ですが、最近は、ほぼ一定です。問題は、ここで止まるかに尽きると思われます。

グラフの見方は、コロナウィルスのデータサイエンス（７７）を参照してください。

f:id:computer_philosopher:20200614181949j:plain — 図１　東京都の感染者数の推移

SIRモデルの役割

前回、SIRモデルの予測モデルとしての目的が不明な点、予測モデルとしての検証がなされていない点が問題であると申し上げました。

逆に、言えば、SIRモデルでは、実測に合うように実効再生算数をデータから推定します。

実効再生産数は予測できないので、SIRモデルは、予測モデルや、感染制御モデルとしてはつかえません。

しかし、SIRモデルは、感染が拡大ししつつあるのか、収束しつつあるのかを実効再生算数だけで評価できる点は魅力です。

都道府県は、非常事態宣言の再発やアラートの基準を出していますが、簡単に言えば収集がつかなくなっています。説明責任以前に、担当者が理解できていないように思われます。

そして、実効再生算数を使う自治体がないことも、理解できません。

データサイエンスで言えば、実効再生算数は次元縮約の手法として、優れています。

ここで、注意すべき点は基本的に統計モデルは、従属変数の変動量を説明変数の変動量で推定します。

これは、当たり前ですが、問題は、従属変数の変動量です。たとえば、感染者数を予測する＝感染者数を従属変数にするモデルを想定します。

従属変数の変動量＜＝独立変数の変動量

このとき、モデル化の対象が東京都であれば、それなりに、使えそうなモデルが作れます。しかし、対象を岩手県にとると、モデルはつくれません。なぜなら、感染者数はゼロのままで、変動がないからです。この間の都道府県でも、、感染者数が数人のレベルですと、従属変数の変動量が小さすぎること、さらには、サンプル数が小さいと、サンプリングのばらつきの影響が大きくなって、「それなりに、使えそうなモデル」を作ることは、困難になります。このブログでは、感染者数の少ない都道府県のデータを扱っていませんが、それは、分析する前から、上手くいかないことがわかっているからです。

実効再生算数の推定

実効再生算数の推定は、米国では、Kevin Systromが公開していること、Systromは、実効再生算数は、狭い範囲で計算すべきで、全米で計算してはいけないことを主張しています。これは、西浦モデルが、人口当たりで、全日本を対象としているのとは大きな違いです。

Systromは、実効再生算数の推定プログラムをGit HUBで公開しています。プログラムは2種類あって、4月17日のバージョンをPythonを使って、モンテカルロシュミレーションをするものでしたが、4月22日に、PyMC3ライブラリを使うものにバージョンアップされました。プログラムは、ノートブックで提供されているので、Anacondaでノートブックを開けば、ライブラリをデータがインストールされていれば誰でも使えるはずになっています。実際に古いバージョンは、作動したのですが、PyMC3のバージョンは途中でエラーになりました。PyMC3わ使ったことがなかったので、筆者の作業はそこで中断していました。

西浦モデルは、Stanを使って、モンテカルロシュミレーションをしているので、Systromのモデルと同じようにベイズ推定をしているものと思われます。

今回、古いバージョンのSystromモデルが「Rt Covid-19 Japan」と「東京都23区市町村別感染者グラフ」に転用されていることがわかりました。おそらく、国内で、Systromと同じよにリアルライムに実効再生算数を推定してるのはここだけではないでしょうか。

現時点で、この「東京都23区市町村別感染者グラフ」をみてわかったことは、

感染者数の少ない自治体の値は使わない用が良いと思います。これは、感染者数のデータが出て、初めて、ベイズ更新をするアルゴリズムになっているためと思われます。また、更新が少ない場合には、初期値の影響が大きく出るので、この点でも問題があります。実効再生算数が新宿区より大きな自治体がありますが、これは計算間違いでなく、この影響と考えます。
感染者数の多い自治体では概ね使えそうに見えます。ただし、Systromは改訂版のモデルを出しているので、バージョンアップで来るのであればした方がよいです。これは、筆者の能力を超えていますので、他人だのみではあります。なお、Gitでソースが公開されているますので、こうしたサイトをどの程度サポートできているかが、その国のデータサイエンスのレベルを示しています。

西浦モデルが、日本を1つにしているのはあまりに乱暴です。500m メッシュ人口は引用サイトで見ることができます。ただし、感染者のデータは、現時点では、東京都で23区レベルでメッシュには対応していません。このレベルでの傾向は、「ジャッグジャパン」のサイトでみることができます。

「東京都23区市町村別感染者グラフ」を見ると最近、実効再生産数が時々１を超えているのは、新宿区だけです。感染拡大を抑えるには、実効再生算数が定常的に１を超えるときに該当する区だけを規制すれば十分と思われます。こうした点では、実効再生算数は他の基準に比べれば、破壊的な威力があります。また、そのことが、選挙を考えて、実効生産数を使わないで他の基準を使っている理由かもしれません。しかし、他の基準は科学的な説明がなされておらず、データサイエンスとしてよいとはいえません。

引用

地域経済分析システム

https://resas.go.jp/#/13/13101

GISホームページ（500mメッシュ）

https://nlftp.mlit.go.jp/index.html

東京大学空間情報科学研究センター　地域分析に有用なデータ（100mメッシュ）

https://home.csis.u-tokyo.ac.jp/~nishizawa/teikyo/index.html

Kevin Systrom

https://rt.live/

4/26: Our model has been updated to correct for changes in the amount of testing done by each state over time. We will share the updated methodology soon