非常事態宣言で感染者数は減っているか~コロナウィルスのデータサイエンス(その35)

移動平均でみる主要都道府県の感染者数の推移

都道府県のデータは今まで、東京都だけを扱ってきました。

これは、データがそろわないことが原因です。筆者のデータは、毎日のマスコミ発表の数字を自分で入力してきました。

現在、自治体で、デジタルデータで感染者数を公表しているのは、次の自治体だけのようです。

東京都のデータは、感染者の事例ベースです。日別集計のデータはないので、Pythonのpandasを使って集計しました。ラベルは、日本語ではなく、半角文字に変えました。

集計したあとで、三重大学の奥村先生が、集計結果を公開していることを知りました。

とはいえ、ここでは、奥村先生のデータでなく、自分で集計したデータを東京都のデータとします。

import pandas as pd
df2=pd.read_excel('4-23-tokyo-corona.xls')
df3=df2.groupby('date').count()
df3.to_csv('df3.csv')

東京都以外で、感染者数の都道府県は、NHKの特設サイトでみると次の順になります。(25日現在、数字は人数)

  1. 東京都:3836

  2. 大阪府:1475

  3. 神奈川県:938

  4. 埼玉県:799

  5. 千葉県:799

  6. 北海道:601

  7. 福岡県:601

  8. 愛知県:476

  9. 京都府:290

  10. 石川県:226

以下省略

変化を追跡する場合には、データ数があまり小さいと変動が大きくなりがちです。

そこで、ここでは、500人近い愛知県までを対象にしてみたいと思います。

この中で、自治体が公開デジタルデータを提供しているのは、東京都と北海道だけです。

それ以外の自治体のデータは、非公式データで埋める必要があります。

都道府県別の感染者数データを非公式データとして公開しているのは、次の2つしか、みつかりませんでした。

この2カ所からデータを入手して検討してみました。

ジャッグジャパン株式会社のデータは、GISのデータで、位置情報がありますが、1レコードは、1感染者のようです。とはいえ、レコードに、感染者数のカラム(実際のデータは1)があったり、類似の属性のカラムが多数あり、どのカラムを使うべきかが、わからなかったので、今回は、パスしました。

東洋経済のデータは、日別、県別の感染者総数のデータです。これは、日別の感染者数では、ありませんが、差分をとれば、日別データが、得られます。そこで、ここでは、このデータを使います。

なお、上述のように東京都と北海道は、公式データもありますが、以下のデータは東洋経済のものです。

ma7の結果

既に、東京都のデータで、曜日効果を消すために、7日間移動平均(ma7)をとると、トレンドがよくわかることがわかっているので、これを使います。平均フィルターは、ガウスノイズを取り除く効果もあります。

移動平均を使う方法は、トレンドを見るために行う標準的な手法で例えば

John Hopkins University New Cases of COVID-19 In World Countries

は、5日移動平均をつかっています。

図1が、その結果です。縦軸は、実数に、なっていますが、これは、移動平均をかけた人数です。これをみると、傾向をみるには、さらに、スムーザーをかけた方がよいようにも、見えますが、今回は、ma7だけにしました。以下、グラフを読んでいきます。

 

f:id:computer_philosopher:20200427155704p:plain

図1 感染者数のma7の結果

 

  • 東京都:今までの説明と同じです。ただし、データが少し違います。この点については後で説明します。なお、東京都のデータは、他の都道府県より値が大きく、そのままプロットすると非常に見にくくなるので、ここでは、0.5をかけてあります。縦軸の感染者数の実数を見るには、2倍してください。以下では、「4月8日まで増加し、4月9日以降は、一定、または、若干減少の変化」を東京パターン(TP)と呼んで、比較の基準にします。

  • 神奈川県、埼玉県、千葉県:神奈川県以下の3県は、東京都の周辺に位置します。ですので、基本、TPになるかをみます。大まかにみれは、TPに近い傾向が見られます。神奈川県のパターンはTPに近いですが、埼玉県と千葉県では増加から水平に移行するとことかまでは、同じですが減少傾向ははっきりしません。東京の周辺になると、(1)感染者数そのものが相対的には小さいので、行動抑制が効きにくい(危機意識が弱まる)、ことと、(2)東京から周辺に人が移動して、東京では減少するが周辺では増加する可能性があります。この2つを合わせてここでは、「周辺効果」と呼んでおきます。埼玉県と千葉県には周辺効果が働いているのではないかと思われます。

  • 愛知県:愛知県は、4月7日ころをピークに、弱い増加から、弱い減少に転じたとみることができます。あるいは、大きくは変化していないとみることもできます。TPとは異なったパターンと思われます。問題は、最近は減少傾向が見られない点です。

  • 大阪府:2番目に感染者数の多い大阪もTPで推移しています。最近は若干の減少傾向が見られます。

  • 兵庫県:4月11日がピークで、それから減少しています。最近は若干の減少傾向が見られます。

  • 福岡県:4月7日から14日に山がある独自のパターンです。最近は若干の減少傾向が見られます。

  • 北海道:単純増加の独自のパターンで、最近も増加傾向が見られます。北海道は、2月18日に非常事態宣言をだし、3月19日に解除しています。このグラフの前の時点です。非常事態宣言は、繰り返し使うと効果がなくなると思われます。これは、「オオカミ少年」効果と思われます。非常事態宣言は使い方を間違えると効果がなくなるの問題は、北海道だけでなく、これからの全国共通の課題です。

まとめ

TPを中心に比較する方法で、感染者数の多い都道府県で感染者数の推移をみました。TPに近いパターンで増加と若干の減少傾向がみられるのは、東京都、神奈川県、大阪府兵庫県です。福岡県はパターンは異なりますが、最近では減少傾向が見られます。ただし、いじれも、減少傾向は非常に緩やかです。

東京の周辺の千葉県と埼玉県では、最近は増加傾向は止まっていますが、減少傾向は明確ではありません。

東京都、神奈川県、大阪府兵庫県、福岡県、千葉県、埼玉県は、最近は感染者数のの増加は止まっています。千葉県と埼玉県を除けま、最近は、若干の減少傾向がみられます。しかし、首都圏、近畿、北九州の感染者数の変化は、非常事態宣言は効果が認められますが、期待された感染者数の明確な減少傾向にはむずびついていません。

愛知県と北海道では最近は増加傾向が見られ、非常事態宣言の効果は確認できません。

総じて、北海道を除くと、感染者数が少なくなると、増加や減少の傾向がわかりにくくなります。これは、データ数が少ないことによるバラツキと感染者数が少ないことによる住民の危機意識に弱さが原因していると思われます。北海道は明確に増加です。

行動制限の効果が感染者数にあらわれるには2週間のタイムラグがあるといわれていますので、将来の予測は、詳しくは、東京都と同じようにグーグルレポートの分析を行ってから考えるべきです。

とりあえず、図1のトレンドだけからみると、連休あけに非常事態宣言を解除することは、ほぼ不可能でしょう。

行動制限は、できるだけ短期に、集中して行うことが経済的に合理性があります。中期に緩やかに行われた場合には、経済的なダメージは膨大になります。グラフから見ると、後者の道に進んでいるように思われます。

次は、google reportと比較したいと思いますが、今回は、ここまでにします。

 

 

データのチェック

図2には、このブログで、いままで説明してきた東京都のデータを示しています。図1とはグラフの形が違います。

そこで、データをチェックしてみます。

f:id:computer_philosopher:20200427155750p:plain

図2 東京都の感染者数の推移

 

図3は東洋経済のデータ、新聞報道(今まで筆者が使っていた新聞報道を毎日入力して作ったデータ、このブログのデータ)、東京都の公式データを比較したものです。東洋経済のデータに大きなずれが見られます。東洋経済のもとのデータは、累積の感染者数のデータなので、累加のグラフを見る限り、この外れ値が目に見えてわかることはありません。一方、ここで示した東洋経済のデータは、毎日の感染者数を出すために、偏差をとったので、違いが見えるようになりました。なお、点の位置が重なっている場合には、後のデータで上塗りされますので、グレーの東京都のデータだけが見える場合には、他の2つのデータも一致していたことになります。

 

 

 

f:id:computer_philosopher:20200427155841p:plain

図3 東京都のデータの比較


図4は、北海道について、東洋経済のデータと北海道の公式データを比較したものです。ここでも一部に大きなずれがみられます。

 

f:id:computer_philosopher:20200427155909p:plain

図4 北海道のデータの比較

 

この2都県以外には公開データはないので、他ではチェックできません。

東洋経済のデータは、累積を合わせるために作成されているので、差分をとると、ここで見たように一部で問題が生じます。しかし、ここでの解析は移動平均をとっているので、その影響は移動平均をとらない場合に比べて、小さくなっています。

結論としては、差分をとることによって、一部のデータの不備が拡大されていますが、問題のあるデータはごく一部で、大勢には影響はないと判断しました。

謝辞

日本の都道府県単位のデータを公開しているところは、ジャッグジャパン株式会社と東洋経済だけです。

東洋経済がデータを公開していただいたおかげで、今回の解析をすることができました。

このような解析は、厚生労働省も行っているはずですが、データは公開されていません。

依然として、「民は由らしむべし、知らしむべからず」なのでしょう。

ジョンホプキンス大学のWEBを見ると州単位のデータが提供されている国も多くありますが、日本のデータには県のデータはありません。これは、日本が世界に向けてデータを発信していないことを意味し、世界からは、日本はそういう国だとみられていることを意味します。

これでは、日本は世界から民主主義国家とはみなされていないことになります。

このような状況の中で、東洋経済がデータを公開していただいた価値は非常に高いと思います。

データを提供していただいた東洋経済に深く感謝します。

 

引用サイト

 

福井県

https://www.pref.fukui.lg.jp/doc/toukei-jouhou/covid-19.html

北海道

https://www.harp.lg.jp/opendata/dataset/1369.html

東京都 新型コロナウイルス陽性患者発表詳細

https://catalog.data.metro.tokyo.lg.jp/dataset/t000010d0000000068/resource/c2d997db-1450-43fa-8037-ebb11ec28d4c

三重大学奥村先生

https://oku.edu.mie-u.ac.jp/~okumura/python/COVID-19.html

NHK 

https://www3.nhk.or.jp/news/special/coronavirus/

ジャッグジャパン株式会社

https://gis.jag-japan.com/covid19jp/?fbclid=IwAR30DDBBnQRcXnIOoqJmjbs-Z4kYIS0LvHMBqwBbORWRV3TpjYstvrrBrE4

東洋経済

https://github.com/kaz-ogiwara/covid19

John Hopkins University New Cases of COVID-19 In World Countries

https://coronavirus.jhu.edu/data/new-cases

オオカミ少年 wiki

https://ja.wikipedia.org/wiki/%E5%98%98%E3%82%92%E3%81%A4%E3%81%8F%E5%AD%90%E4%BE%9B