最近の感染者数の推移~コロナウィルスのデータサイエンス(71)

Googleデータが更新されたので、グラフを更新しておきます。

対象は問題の多い東京都、神奈川県、北海道、北九州市です。

なお、グラフの読み方は、まとめて説明しています。

 

追記:6月5日18:00

神奈川県の感染者数のデータが一部表示されていないエラーを修正しました。

これにあわせて、東京都。神奈川県、北海道に6月5日の感染者数のデータを追加しました。

北九州市のデータは更新していません。

 

東京都

Googleは東京都、AppleはTokyo cityのTransitデータです。

行動制限率は緩やかに戻ってきています。これから、感染者数が、更に減少傾向に転ずるとは考えにくいです。

ここ1週間に対応する行動制限率はほぼ横ばいですが、6月5日頃から、行動制限の戻りが大きくなっているようにも見えます。

今後、感染者数がさらに増える可能性があります。

 

f:id:computer_philosopher:20200605174619p:plain

図1 東京都の感染者数の推移

 

神奈川県

Googleは神奈川県のTransitデータです。

ここ1週間に対応する行動制限率はほぼ横ばいです

感染者数は減少傾向が続いています。

一方、6月5日頃から、行動制限の戻りが大きくなっているようにも見えます。

今後、感染者数がさらに増える可能性があります。

東京都と似ていますが、行動制限率の緩和は緩やかです。

もちろん、行動制限率以外の要因もありますが、東京都と神奈川県を比べると、感染者数は東京都が微増、神奈川県が微減です。これは、実効再生産数が1.0前後の時に起こる現象なので、この辺りに、感染者数の増減の境目があるとも思われます。そう考えますと、神川県の感染者数の減少は、紙一重のバランスで成り立っているのかもしれません。

 

 

f:id:computer_philosopher:20200605174642p:plain

図2 神奈川県の感染者数の推移


 

北海道

Googleは北海道、AppleはSapporo cityのTransitデータです。

北海道の感染者数は最近1週間は、減少していますが、もう少し、広い時間スパンでみると、5月18日頃から増減を繰り返しているようにも見えます。神奈川県で5月15日前後に、減少傾向がいったん停止した理由は、院内感染のクラスターの増加が原因です。Googleデータは院内感染のクラスターのサイズによる感染者数の増減をひろいませんので、その部分はノイズになります。

北海道の場合には、行動制限率が、東京都や神奈川県より常に(絶対値が)小さくなります。これは、緊急事態宣言が2回目になるためと考えていましたが、鉄道の普及率も影響していると考えるようになりました。地下鉄網が、東京都や神奈川県より少ないので、電車による移動より、車による移動が選ばれる場合が多いとも思われます。それが反映して可能性があります。

 

f:id:computer_philosopher:20200605174712p:plain

図3 北海道の感染者数の推移

北九州市

Googleは福岡県、AppleはFukuoka cityのTransitデータです。

ここでは、経路不明の感染者数が、Googleデータに対応していますが、感染者数のデータは対応が弱くなります。これは院内感染によるクラスターサイズの増減のためです。クラスターの影響が大きく、感染者数が増えたときには、マスコミに注目されましたが、最近は感染者数へのクラスターの影響は収まりつつあります。

経路不明感染者数はほぼ増減なしで推移しています。

行動制限率の戻りがとくにGoogleで見ると、大きいので、その点には注目したいと思います。

なお、北九州市の最近のデータはPCR検査数が200を超えているので、その点では、信頼性が他より高いと考えられます。その点でも、注目に値するデータです。

 

f:id:computer_philosopher:20200605101813p:plain

図4 北九州市の感染者数の推移

 

グラフの読み方(2020.6.5.改訂版)

グラフで扱っているデータは次の2系統です。

  • 感染者数関連データ(左軸:単位:人)

  • 行動制限関連データ(右軸:単位:%)

グラフの凡例は次に統一しています。移動平均と2週間シフトについては、以下の説明を参照してください。

person:感染者数(左軸:人)

ma7person:感染者数の移動平均(左軸:人)

ma7unkonown:経路不明感染者数の移動平均(左軸:人)

ma7google:Google Transit行動制限の移動平均:2週間シフト(右軸:%)

ma7apple:Apple Transit行動制限の移動平均:2週間シフト(右軸:%)

 

グラフによって、扱っているデータが少し違います。以下では、種類が最大の場合について説明します。

1.感染者数関連データ

 感染者数のデータは、自治体がデジタルで公表している場合には、その値を使います。

 北海道、東京、横浜はこれに合致します。ただし、東京都のように過去にさかのぼってデータを修正した場合には、それに対応できていない可能性があります。東京都のデータは、6月4日の時点での修正でータに入れかえています。ただし、このデータは3月27日が最新のため、3月21日から3月26日は、古いデータを使っています。自治体で、公表していないデータは出典により微妙に異なりますが、その場合には、出典を示しています。

 最新のデータは、ニュースから直接入力しています。

 経路不明者感染者数のデータは、一般には、自治体の公開デジタルデータに入っていません。ですので、基本は、感染者数で代表しています。

 経路不明感染者数のデータをとり使っているケースは次の2つです。

  • 東京都:これはニュースのデータを筆者が入力したものです。発表時の区分なので、その後、経路が判明した分は含まれません。

  • 北九州市:5月23日以降の感染者の個別データには経路が書かれていますので、これをつかって、23日以降の経路不明数を出しています。同様の方法が、他の自治体でも可能かもしれませんが、全て手作業になるので、ここ以外では難しいです。

2.行動制限関連データ

 スマホのMobile Reportのデータです。国内では、NTTとSOFTBANKのデータが、ニュースや厚生労働省のサイトで示されていましたが、デジタルデータでないこと、期間と測定点に一貫性がないことから、使い物になりません。ここでは、GoogleAppleの公開データを使っています。評価項目はGoogleでは6項目、Appleでは3項目です。測定期間は2月からの日データです。測定位置は、Googleは国、県単位、Appleは、国、地域、都市単位です。Googleはすべての側点で6項目がそろっています。Appleは、側点によって項目が異なります。また、国以下のレベルでは、地域区分は国をカバーしていません。都市は一部だけです。例えば、神奈川県については、神奈川県のデータは、Drivingの一項目だけで、Transitはありません。また、水戸はありますが、横浜はありません。ですから、使いやすいのはGoogleデータですが、公開日が遅れる難点があります。

これらのデータのうち、感染者数との関係が一番強いのは、Transitデータなので、ここでは、Transitデータだけを使っています。

なお、Appleのデータは、5月11、12日は欠測であるとされて、データは空白になっています。ここでは、11日のデータは10日の値を、12日のデータは13日の値で補填しています。

一部のデータは、11,12日ではなく、10,11日が欠測になっています。たとえば、東京の欠測は、11,12日ですが、福岡は10,11日になっています。この場合には、日付がずれている可能性もありますが、ここでは、日付は正しいとして、この場合には、10日に9日の値を、11日に12日の値を補填しています。

Appleのデータで、ヘッダー部に2バイト文字を使っている場合に、データ日付が1日ずれるバグを見つけて、修正しました。なので、上記打消し線は古いグラフの処理で、現在は、この問題は解決されています。

3.データ処理

 感染者数、経路不明感染者数、Google Transitデータ、Apple Transitデータは7日移動平均をかけて使っています。グラフの凡例に「ma」「ma7」などがついている場合は、移動平均であることを示しています。統計学移動平均は、平均期間の中央の日付のデータとして処理することが一般的です。しかし、非常事態宣言の解除の判断では直近1週間の平均値が問題になりました。これは、移動平均を最新の日付で処理することに相当します。このため、ここでは、移動平均期間の最新の日付のデータとして処理しています。これは、時系列解析の処理としてはアブノーマルで気持ちが悪いです。

移動平均以外に、参考に、感染者数の生データをプロットすることがあります。この場合には、凡例に「ma」を付けない、データを線で結ばないようにしています。逆に言えば、線で結ばれたデータは移動平均データです。

Google Transitデータ、Apple Transitデータはその効果が感染者数に現れるのに2週間程度の時間遅れが生ずるといわれています。そこで、これらのデータの日付は14日後にしています。例えば、6月1日のデータは、6月15日にプロットします。こうすることで、Transitからみた、感染者数の動きを予測しやすくなります。

感染してから、明確な症状が出るまでの時間遅れは2週間程度といわれています。この日付は、感染公開日ではなく、感染日です。しかし、推定感染日毎の感染者数データは公開されていません。これは、感染予測モデルを動かすためには、必須のデータなので、厚生労働省はこのデータを作成しているはずです。しかし、このデータは非公開です。単純に2週間ずらす、公開日毎の感染者数データを使うことには問題がありますが、今のところ良い代替手段はありません。

4.今までに、わかっていること

 都道府県単位では感染者数のデータとGoogle Transitのデータには、対応が見られます。4月の感染者の減少フェーズでは、Google Transitデータが-30からー40%の間で、感染者数の減少が見られました。

政府は、行動制限ー80%を目標ということで、NTTデータの行動制限データを効果して、外出の抑制を呼び掛けていました。このデータと、Google Transitデータ、Apple Transitデータを比較すると、NTTデータは、Google Transitとは20%くらい、Apple Transitとは40%くらい、差があります。NTTが-80%のとき、Googleはー60%、Appleは、-40%といった感じです。NTTは都市部の交通量の特に大きなところに偏っているので、数字が大きく出ているとおもいます。いずれにして、-80%が感染者減少には望ましく、-60%で増減なしというシミュレーションの値はデータからは現実にあっていないと判断されます。

北九州市のデータをみると、Google Transitデータは、感染者数よりも、経路不明感染者数に関連が深いです。これは、Transitデータが、移動制限に強く関連し、経路不明換算者数と対応していることを示唆しています。一方、Google Transitデータは院内感染などのクラスターの拡大との関連は薄いです。ただし、これは、北九州市では感染者数と経路不明感染者数が独立した変動を示したので、分析できたのであって、東京都のように、感染者数と経路不明感染者数の間の相関が高い場合には、その効果は分離できません。

北海道の最初の非常事態宣言の時点のデータを見ると、Google Transitはー40%に達していません。それでも、感染者が減少したので、クラスターつぶし対策が有効であったことがわかります。逆に、東京都の非常事態宣言のデータをここでは、Google Transitと結びつけていますが、これは、クラスターつぶし対策のデータが与えれれていないためです。

Google Mobile Report

https://www.google.com/covid19/mobility/ Accessed: <2020.06.04>.

Apple Mobile Report

https://www.apple.com/covid19/mobility 6-2version Accessed<2020.06.04>.