コロナウィルスのデータの集約と感染予測~コロナウィルスのデータサイエンス(92)

コロナウイルスのデータを(1)どのように取りまとめるか(これは過去のデータの整理)、そして、(2)どのように将来予測をするのか、さらに、(3)その結果をどのように伝達するかは重要な課題です。

今回は(1)と(2)を考え、(3)は次回に考えることにします。

テンソルとコロナウィルスデータ

コロナウィルスのデータの次元について考えてみます。

簡単な例は、次です。

  • 東京都の毎日の感染者数

これが、1日ごとの数値が、並んでいます。

例を示します。ここで、感染者数はベクトルデータになります。

感染者数以外にも、経路不明感染者数、PCR検査数、入院患者数などがあります。表1の横が広がっていくイメージです。これは、ベクトルが複数集まった構造になります。これは、要素が全て数値なら、配列なり、要素の数値以外が含まれれば、データレームになります。ここまでで、2次元のデータになります。

このようなデータが都道府県毎にあるので、この場合には、3次元の配列になります。拡張概念としては3次元のデータフレームも考えられるかもしれませんが、2次元までです。

現在の統計手法の主流は、ベクトルデータに対する演算です。次元があがると、人間にはデータの特性が直感的に理解できなくなります。ですので、次元を小さくする(次元縮約)が有用になります。

3次元より次元の大きな4,5次元のデータもあります。これらを一般的にした多次元配列はテンソルと呼ばれます。

なお、力学で用いられるテンソルとデータサイエンスで用いられるテンソルは意味が違います。データサイエンスでは、単純に多次元配列に収納されるデータをテンソルといい、点データ(0次元)、ベクトルデータ(1次元)もテンソルの特殊な場合に扱います。

テンソルデータのデータサイエンスは使われるようになって、まだ10年くらいしかたっていません。

いまのところ、2次元の配列とベクトルが、統計手法の大きな部分をしめています。

コロナウイルスのデータは、少なくとも、2次元の配列になってしまいます。配列データの次元縮約ができないと、データの特性を理解することはできません。

もうちょっと、まじめに、扱うとテンソルデータになるので、更に、次元縮約の難易度があがります。

ですから、例えば、日本と英国と米国とブラジルのコロナウイルスの最近の感染状況の要点を説明することは、テンソルの縮約問題になり、簡単ではありません。

 

表1 東京都の感染者数と経路不明感染者数

日付 感染者数 経路不明感染者数
6月9日 12 7
6月10日 18 8
6月11日 22 10
6月12日 25 7
6月13日 24 13
6月14日 47 10
6月15日 48 13
6月16日 27 16
6月17日 16 10
6月18日 41 22
6月19日 35 19
6月20日 39 15
6月21日 35 14
6月22日 29 13
6月23日 31 19
6月24日 55 23
6月25日 48 19

 

時系列データの課題

コロナウィルスのデータで問題を複雑にしている点は、感染者数など多くのデータが時系列データである点にあります。時系列データは時間方向に相関が高いことが多いです。たとえば、コロナウィルスの感染者数は、前の日の値に近くなります。前日まで、感染者数がずっと0であれば、今日も0の可能性が高いです。逆に、ここ1週間毎日50人以上の感染者数が出ていれば、今日の感染者数が0になる可能性は低くなります。

ですので、移動平均をとって、曜日効果を消去するとともに、相関の高い分は、まるめてよいとかんがえるわけです。

表1で、現在日を、6月22日にとったとします。現在の東京都などの移動平均は、()の中を日付、p()を感染者数とすると移動平均感染者数ma()は次式で与えられます。

ma(22)=(p(22)+p(21)+p(20)+P(19)+P(18)+p(17)+p(16))/7

相対日付で書けば、次になります。

ma(0)=(p(0)+p(-1)+p(-2)+p(-3)+p(-4)+p(-5)+p(-6))/7

しかし、本来の移動平均は次式です。

ma(0)=(p(-3)+p(-2)+p(-1)+p(0)+p(+1)+p(+2)+p(+3))/7

結局、p(+1),p(+2),p(+3)の代わりに、p(-4),p(-5),p(-6)が使われていることなります。

p(+1),p(+2),p(+3)は将来の感染者数なので、0日(22日)の時点では、わからないので、その点では、やむを得ないのですが、それにしても、重み付き平均のp(-4),p(-5),p(-6)の古いデータに対するウェイトが高すぎると思われます。

それでは、p(0)、p(-1)、p(-2)、p(-3)、p(-4)、p(-5)、p(-6)につける重みを一律1/7からいくつに変えることが適切になるかが課題になります。

ベイズ更新はこの問題に対する理論的な答えを与える方法の一つです。

Rtを使うメリットのひとつはこの点にあります。

将来予測とベイズ統計

平均が有効な場合は、正規分布が当てはまること、大数の方法があてはまることです。

統計量の平均が時間とともに変化しない場合には、平均より大きな値が続いた場合には、その後では、平均より小さな値が出やすくなります。値のばらつきが正規分布にしたがっていて、分布が変化しなければこうなります。時々、サイコロを振るような各々の試行が独立している場合には、期待値はかわらないはずなので、平均より大きな値が続いた場合には、その後では、平均より小さな値が出やすくはならないという説明をしている教科書がありますが、それは間違いです。各試行の独立性と、期待値が変わらないことは別の話です。

この点については、多くの教科書ははっきり書いていません。例外は、カーネマンの「ファースト・アンド・スロー」です。しかし、ポーカーをするプロのギャンブラーはこの性質を前提に次のカードを予測して手を決めているようです。この場合には、理論的には、「平均より大きな値が続いたあとで、平均より小さな値が出て」サンプルの平均値が本来の平均値に戻るまでの時間(あるいは手の数)はわからないのですが。経験的には、あまり大きくないといわれています。株式の運用でも、データが平均に戻るという性質が使われていると思われます。

大数の法則が働かない場合は、確率分布が時間と主に変化するか、空間分布に偏りがある場合で、サンプルの時間や空間が限定された場合には、ほとんどこうなります。このアプローチでは、大数の法則と逆に、時間と空間が限定された場合に使われます。この倍には、確率は、実際の計測結果の影響をうけます。サイコロで言えば、1の目がよく出た場合に、大数の法則を使う頻度主義では、これは、データのバラつきであるから、これからは1の目は少ししか出なくなるだろうと考えますし、大数の法則が成り立たないベイズ主義であれば、このサイコロはゆがんでいて、1の目が出やすくなっていると考えます。どちらの説明でもそれまでのデータは問題なく説明できます。ただし、2つの立場で、異なった将来予測ができますので、結局、どちらの前提が良かったかは判断できます。

ここでは、確率的な将来予測では、モデルの検証が必要なことと、ベイズ統計手法はデータ数があまり多くなく、大数の法則が使えない場合であることを確認しておきます。

筆者が、西浦モデルに問題があるとしているのは主にこの検証がなされていない点にあります。

特に、せっかくベイズ手法を用いるので、全国統一モデルにすべきではないと思います。感染者数の少ないところは、予測ができないとは、Covid-19 Japanでみたとおりですが、全国モデルでは、こうした地域も予測できるような間違った印象を与えています。