コロナウィルスのデータサイエンス(その1)

2月8日のニューズウィークのWEBに

新型コロナウイルス、感染ピークは過ぎた? 情報不足で予測モデル頼りにならず」

https://www.newsweekjapan.jp/stories/technology/2020/02/post-92345.php

という記事がのっています。一方、ジョンホプキンス大学のWEBには、リアルタイムで、コロナウィルスの情報が表示されています。

Coronavirus 2019-nCoV Global Cases by Johns Hopkins CSSE

https://gisanddata.maps.arcgis.com/apps/opsdashboard/index.html#/bda7594740fd40299423467b48e9ecf6

今回は、このデータを見てみます。というのは、このページには、DeathとともにRecoverdの数字が出ているからです。疫学で生存率を見るためには、カプランメイヤー法を用いる必要があります。生存率を計算するときの困難は、問題になるのが、生き残っている人に対する生存率である点です。そして、死亡者がでると、生き残ている人は、変化します。ところが、通常の統計手法は、母数を一定にして計算するので、使えないのです。ガンの生存率にも、カプランメイヤー法を使います。5年生存率が10%というのは、5年後に90%の人がなくなります。この場合に、余命を計算することは難しいです。5年生存率が10%の人に、仮に、あなたの余命は5年だと説明したとします。90%の人は、5年経つ前になくなり、10%の人が5年以上生きます。このは、予測値としては失格です。ですので、通常は生存率が50%になる時間を余命と定義します。よく書店で、民間療法に本に、余命1年といわれれたが、〇〇健康法で、1年経っても生きているといった説明をしている本を見かけますが、この人は余命の定義がりかできていません。

カプランメイヤー法の説明をしましたが、生存率で問題になるのは、最終的に、死亡した人と、回復した人の割合になります。ただし、回復した人はガンのように再発の可能性のある病気では判断は、難しくなります。また、時間が経つと、別の病気や事故で無くなる人も出てきます。こららのデータの補正も、時間が経つと困難になります。ですので、ガンの場合には、5年間生存率で、一応の線を引いています。5年経って再発していない場合でも、その後に再発することはあるのですが、その部分のデータはノイズが多く処理が難しいという判断をしているわけです。

こうした視点で見ると、ジョンホプキンス大学のデータに含まれRecoverd(回復)は、再発しないとみなせ、注目に値します。このデータは、新聞やテレビでは報道されていません。

データを見て、第2に考えなくてはいけないことは、データ数のあまりに小さい場合には、ばらつきが大きくなって、信頼できる値が得られないことです。死亡者数データは2月8日の朝の時点で、722人中、699人が湖北省、21人が湖北省以外の中国、あとは、香港とフィリピンが1人ずつです。

ここで、一般に行われている死亡率1=(死亡者数/感染者数)だけでなく死亡率2=(死亡者数/(死亡者数+回復者数))による死亡率を計算してみました。死亡者数の確定よりも回復者数の確定の方が時間がかかるので、後者の死亡率は、短期的には過大になります。たとえば、日本の回復者数はまだ1人です。とはいえ、相対的な状況を把握するには使えると思います。表からわかるように、死亡率1でも死亡率2でも、湖北省の値は湖北省以外の中国の値より1けた大きくなっています。中国以外の死亡率は死亡者数が小さすぎて信頼する値が得られないといいましたが、言い換えれば、ほとんどほとんどゼロに近いです。ということは、死亡率について

中国以外<<湖北省以外の中国<<湖北省

の関係が成立しているものと思われます。

ニューズウィークの記事は、この違いを説明できる合理的なモデルができていないといことであると思います。

TVでは、湖北省医療崩壊を起こしていると発言している医師もいました。最大の疑問は、なぜ、湖北省の死亡率が突出してたかいのかわからない点にあると思われます。

 

f:id:computer_philosopher:20200208214937p:plain

死亡率の計算