コロナウィルスとビッグデータ疫学(1)

ビッグデータによるコロナウィルスのリスク管理モデルの可能性

アメリカ大統領選挙では、スマホの個人情報を使って、テンソルデータを作って、有権者をグルーピングして、グループ毎の選挙対策SNSで発信していたと思われます。この時に、個人を特定できることが重要になるので、匿名を排するフェイスブックのデータが使われます。2016年の大統領選挙では、殆ど生のフェイスブックデータが違法に使われたことが分かっており、実行部隊のケンブリッジ・アナリティカはなくなっています。

同じ手法をコロナウィルスに使えば、個人をグルーピングして、グループ毎のリスク管理をすることは、技術的には、さほど難しくないと思われます。しかし、ビッグデータの活用が一番進んでいるアメリカで、表向きはコロナウィルスのリスク管理モデルができていません。この現状を説明できる仮説には次の2つが思い浮かびます。

第1の仮説は「コロナウィルスのビッグデータ解析をするためのコロナウィルスの個人データが集まっていないことがリスク管理モデルができない理由である。」とするものです。究極では、各個人情報に対して、いつどこで陽性になったか、いつどこで発症したかのデータがあれば解析できます。しかし、プライバシーの保護のために、これらのデータは個人情報にはリンクされていません。スマホのコロナアプリでもリンクしていないことを強調しています。しがって、コロナウィルスのデータがないことがリスク管理モデルができない理由である思われます。

実は、ビッグデータ解析をするためには、コロナウィルスの陽性データや入院データは必須ではありません。インフルエンザの流行の予測には、病院の患者数の報告データよりも、Googleのキーワード検索のデータを使った予測の方が早期に実態を把握できることが分かっています。病院やショッピングモールの入り口で体温測定をするシステムがあります。この体温データとスマホの位置情報を組み合わせれば、個人ごとの体温測定データができます。より直接的には、アップルウォッチのデータが使えます。入院しているかどうかは、位置情報があれば、推定可能です。これらのデータを使い、コロナウィルス前と、コロナウィルス後のデータの差を説明するモデルを作れば、コロナウィルスのリスク管理モデルを作ることができます。

スマホでアプリをインストールする時に、データの取り扱いについての契約条件が書かれています。この契約条件でグレーな点は、お試しでビッグデータで解析する部分で、契約条件には、明示してはいませんが、お試しでは自由にデータが使えるようになっています。例えば、スマホ所有者の不利益になるように、データを使わないと書かれていたとします。この条件判断は、お試しの解析をして、解析結果を公開する段階にならないと、契約条件に適合するか否かの判断はできません。つまり、白黒が分かる境界までは解析者の領土になります。

第2の仮説は、「ビッグデータによるコロナウィルスのリスク管理モデルは、既に、出来ているが、経済的利益を生まないために、存在が、知られていない。」というものです。おそらく、お試しで、コロナウイルスリスク管理モデルは作られているはずです。このモデルは完全ではないにしても、例えば、リスクを半分くらいに落とすことを目標に開発すれば、さほど、無理なくモデル化はできると思われます。そこで、仮に、こうしたお試し版のリスク管理モデルが既に開発されていると仮定します。巨大IT企業は、このモデルをどう使うか考えてみます。簡単に言えば、リスク管理モデルをお金にする方法があるかという問題になります。たとえば、健康管理アプリの一部に、コロナのリスク管理モデルと明示せずに、このモデルを組みこめば、効果があると思われます。一方で、コロナのリスク管理モデルを作っていることを開示してしまうことは、経済的な損失につながります。なぜなら、現在、巨大IT企業は、独占禁止法やプライバシーの侵害に関する裁判を欧米で起こされているからです。個人情報が、解析されていることが事実であっても、できるだけ、それとわからないように、その手法を利益につなげることが、IT企業の基本スタンスと思われます。

まとめますと、筆者は第2の仮説が尤もらしいとおもっています。