データの課題~コロナウィルスのデータサイエンス(その39)

このブログの視点

筆者は疫学の専門家ではありません。しかし、必要に迫られて、統計学はそれなりに学んできました。また、統計学の一部としての疫学は学んでいます。疫学の統計学は、一部では非常に先端的であり、その点では、疫学を尊敬しています。

このブログの視点は、タイトルにもありますように、コロナウィルス問題をデータサイエンスの切り口で見てみようという点にあります。宗教と科学の大きな違いの一つに、科学はデータに基づいて判断することがあります。データが不十分であったり、欠落している場合には、科学は、結論が出せないとか、現在のデータの範囲で、ベストな結論はXXであるが、これは、データが追加されれば、変更される可能性があるとします。

一方、人間は不十分なデータであると結論が出せないとすると心理的にパニックになります。これは、自然科学の教育を正しく受けていない場合に共通する心理的反応です。テレビでも、ほとんどデータがないのに、専門家と称する人や評論家と称する人が出てきて、インタビューアーや司会者から、コメントを求められます。しかし、こうしたデータ(エビデンス)に基づかない情報には、聴いている人を心理的に満足させて視聴率をあげる以外の価値はありません。データサイエンティストから見れは、時間とお金の無駄です。人間は、言葉を得てから、未決定の状態に置かれると心理的にパニックになるようになりました。宗教は、その論理が正しいかは別にして、辻褄のあう物語を提供しますので、心理的は安らぎを得ることができます。宗教で、科学のような心理的アナーキーな状態に耐えることの求めることができるのは、あるがままを受け入れる禅だけではないでしょうか。逆に言えば、禅には救済(心理的安定)がないので、宗教といえるかは疑問な点もあります。

話が脱線しましたが、このブログでは、コロナウィルス問題を、あくまで、データサイエンスの視点で見てみようという点に関心があります。問題解決などの価値を持ち込むつもりはありません。

では、どのようなデータがあるかを次にみてみます。

 

データソース

世界レベルで、データが得られるところは、WHO,ECDC,Johns Hopkins Universityの3カ所です。

(追記1参照:wikipedeaもありました。)

これらのソースからデータを集めて編集しているMax Roser によって開設されたOur World Dataも有益なサイトです。ここでは、データだけでなく、ソースコードも公開されています。

国内のサイトで使えるのは、ジャッグジャパン株式会社と東洋経済だけです。NHKや官庁サイトは、問題外です。

組織運営の問題もありますので、国内のサイトは頑張っているとは思いますが、データサイエンスとして、単純にOur World Dataと国内のサイトを比べると、悲しくなります。日本のデータサイエンスの将来は、憂慮すべき状態にあります。

とくに、都道府県別データは、Johns Hopkins Universityなどに公開すれば、Our World Dataが取り扱うと思います。現時点では、東洋経済のデータは、こうしたサイトの目に入っていないと思われます。

なお、なぜ今頃データの問題をぶり返したかといえば、データの問題は、第4のシナリオに結びつくからです。

今までの政策シナリオは、WHOのデータが信頼できるとの前提に構築されてきました。

しかし、結果としてパンデミックが起こりました。

イタリアは2月21日に感染者数が17人になり、22日42人、23日93人、24日74人、25日93人、26日131人と感染者数が急激に拡大します。これからわかることは、実際の感染者が出る前から感染が広かったいたということで、この時期の感染者数は実体を表す数字としては使えないということです。

一方、本当か、不明ですが、ベトナムは、中国にハッキングをかけて、武漢の現状が公式発表より重症なことを事前に察知していたため、感染防止の初動がはやかったという指摘もあります。

この問題は、過去の問題ではなく、現在進行の問題でもあります。

おそらく、多くの国のCIAのような組織は、より信頼のできる数字の推定を行っていると思われます。

もちろん、こうした数字は、表にでることはありませんが、コロナウィルス問題は情報戦でもあります。

 

追記1:

この記事を書いてから、Google newsにも世界の感染者マップがのっていることを知りました。しかも、このマップには、日本は県別の感染者数が載っているのです。データについては、wikiが引用されています。

非常にわかりにくいのですが、日本のコロナのwikiの中に、県別データの表がのっていました。出典は、各県の感染報告のようです。世界中のデータが1ファイルになっていると便利なのですが、今のところ見つかっていません。日本のデータもそのままでは表は出てこなくて、hideをクリックすると表示されます。

とりあえず、東洋経済のデータにクロスチェックをかけるデータが入手できたことになります。

追記2:

ダイヤモンドオンラインの4月29日に原田 泰:名古屋商科大学ビジネススクール教授がー「コロナ患者が日本で少ないのは検査が少ないから」説を統計的に検証ーという記事を書いています。この記事には3つの問題点があります。

  • データは東洋経済のものをチェックせずに使っていると思われます。

  • データのサンプルによるばらつきが考慮されていません。東京都のデータでも移動平均をかけないと、ばらつきが大きすぎて、実態がみえてきません。まして、データの少ない都道府県のデータを使うことは無謀だと思います。

  • 「感染者数=PCR検査の陽性者数<PCR検査数」が因果律として成り立ちます。相関より、因果の方が縛りが強いので

PCR検査を増やすことが必要なのは、データ数が余りに少ないと、サンプルによるばらつきが大きすぎて使えないからです。感染者数が、意思決定の基礎データになるので、精度を確保する努力をしないと、意思決定が場当たりになります。これは、前回の大戦で、日本が米国に負けた要因の1つでもあります。

追記3:

緊急事態宣言から3週間 流行状況はどう変わったか、忽那賢志 | 感染症専門医、4/29(水) 22:00

を見ると、次のことがわかります。

  • この記事の筆者は、4月の始めまではPCR検査数が少なかったが現在は問題がないと感じている。

  • この記事の筆者は「海外でのロックダウンのような強制力がない「外出自粛要請」だけでここまでの結果が得られたことは素晴らしい」と感じている。

  • 西浦博先生と押谷先生は、経路不明感染者数を制御できると考えている。

 

筆者は、現在のPCR検査差数がさほど不足しているとは思いませんが、3月半ばまでは決定的に不足していたと思います。その結果、データサイエンスとしてみれば、時系列データで評価できるチャンスが失われたと思います。

「「外出自粛要請」だけでここまでの結果が得られたことは素晴らしい」という主張は、経済的ダメージが小さければ賛成しますが、現在の経済的なダメージは、ロックダウンと大きな差がないように感じています。つまり、コストパーフォーマンスがいいとはいえません。それは、非常事態宣言が延長されたことからも明らかと思います。

追記4:

「緊急事態宣言の5月6日解除」が問題になっていて、30日には延期になりました。GoogleReportが前回23日( April 23, 6:04 PM GMT)には6日おきであったので、単純に考えれば、29日には、更新されるはずなのですが、まだ、更新されていません。「NTTドコモ モバイル空間統計」は、データソースに近いサイトは次と思われますが、ここも1日分の表だけで、googleのように、デジタルデータで時系列を提供しているところはまだ見つかっていません。宣言の延長の判断は感染者数ではできないので、この種のデータが決めてになると思いますが、データを公開するつもりはどこもなさそうです。

https://www.nttdocomo.co.jp/utility/demographic_analytics/

このデータについては後で説明します。

世界のデータ
国内のデータ

参照

Our World Dataのコメント


You can download all our data and code – or simply embed our charts

all our data on the pandemic can be downloaded in our daily updated COVID-19 dataset
all our code is open-source
all our research and visualizations are free for everyone to use for all purposes

Our World in Data wiki

https://en.wikipedia.org/wiki/Our_World_in_Data

Max Roser wiki

https://en.wikipedia.org/wiki/Max_Roser

1月から中国をサイバー攻撃し、コロナの情報収集をしていた国

https://www.newsweekjapan.jp/stories/world/2020/04/1-142.php