北京オリンピックのデータサイエンス

コロナウイルスの課題と因果モデル

問題が発生した場合、問題とは因果の結果であることが普通です。

問題というのは、閾値をある判断基準が越えた現象を指しますが、その判断基準は、価値で決まります。

コロナウイルスの感染でも、感染が問題か、入院が問題か、重症化が問題か、死亡が問題か、判断基準の取り方は、一様ではありません。

感染が問題であれば、ウイルスの侵入を防止するか、人々の接触機会を減らすことが、原因の対策になります。

しかし、オミクロン株の出現で、感染の制御は、ほぼ、不可能なことがわかっています。

免疫の獲得を目指すのであれば、ワクチン接種と、感染拡大速度のバランスが判断基準になります。

コロナウイルス感染の初期には、ワクチンを開発して、ワクチン接種が終わるまで、感染拡大の速度を最大限に抑えることが目的(判断基準)であったと思われます。

現在では、ウイルスは変異して、ワクチンが、変異に対応できる能力は、限定的なことがわかっていますから、上記の目的が、そのままでは使えません。

因果モデルで考えれば、問題となる結果と制御すべき原因を明確にすべきですが、日本では、それが、できているとは思えません。因果モデルで考えることは、科学のアプローチですから、この対応ができないわけは、科学的なリテラシーの不足、特に、データサイエンスのリテラシーの不足にあります。

計測の非中立性

因果モデルで考えるには、原因と結果になる事象の計測データが必要です。

ある観測値が、原因になるか、結果になるかは、因果モデルの取り方に依存します。つまり、本来、観測値には、原因、結果の色はついていません。

観測値に、判断基準を設定すると、観測値に、色がついてしまい、計測の中立性が、失われます。

国土交通省の建設業界のデータのミスや、Go Toトラベルの不正受給の問題があると、大臣が記者会見をして、あってはならないことであり、厳格に取りしまるといいます。 しかし、これは、計測の中立性を破壊するので、やってはいけません。

データミスがある場合、データミスがないようにしろという圧力をかけます。そうすると、不祥事は報告されなくなります。自動車の排ガスや燃費の不祥事も、何回も繰りかえされています。

建設業界のデータのミスは、データにミスがあったことが問題ではありません。データにミスがなくとも問題なのです。クロスチェックをかけるシステムになっていなかったことに問題があります。国土交通省以外でも、クロスチェックのないデータ収集システムが横行しているはずです。今後、クロスチェックをかけても、エラーはゼロになりません。そうすると、許容できるエラー率を設定しないと、運用は不可能です。この状態で、ノーミスの圧力をかければ、100%捏造が起こるはずです。

Go Toトラベルの不正受給も、不正受給した民間企業が悪いという扱いですが、不正受給が簡単にでき、発覚しにくいシステムを作ったことが原因です。一概に、結果をたたいてはいけません。

どちらの場合も、エラーゼロはありえませんので、ゼロを強要すれば、データは捏造されます。

北京オリンピックの課題

北京オリンピックでは、コロナウイルスの制御、特に、オミクロン株対策が、重要な課題になります。

問題は、中国政府が、何に、コロナウイルス対策の制御目標を置いているかです。

感染拡大の当初は、各国とも、ワクチン開発の時間を稼ぐために、感染拡大の防止を制御目標にしていました。この段階では、中国政府は大きな成果をあげました。

しかし、感染が拡大し、ワクチン接種が、ある程度進んだ国では、現在の制御目標は、集団免疫の確保にあります。

中国政府の現在の対応をみていると、制御目標が、依然として、感染拡大の防止にあると思われます。つまり、集団免疫の確保が、十分に達成されていないようにみえます。中国製のワクチンは、相対的には、米国製や英国製のワクチンより性能が劣るという情報が出ていますが、正確な効果の情報は、得られていません。これは、中国製ワクチンの効果が、政治的な意味を持つため、中立な計測データがないためです。限られた情報を見る限り、中国の集団免疫の獲得状況は、欧米の水準には達していないと思われます。

もともと、中国のデータは、中立ではないと言われてきました。クロスチェックをかけると、合わないデータが多いのです。

最近は、締め付けを強くしていますので、データの信頼性は、以前より、落ちていると思われます。

データが信頼できなくなると、因果モデルに基づいた制御は不可能になります。

データサイエンスは、この点からも、結果による制御はすべきでないと考えます。

中国の感染者の隔離の技術レベルは高いので、選手は徹底した隔離をすると思われます。ただし、観客を入れた場合の観客の感染制御は、オミクロン株では、難しいです。

データがないので、どこが悪いとは言えませんが、データサイエンスで見ると、データの信頼性に問題のあるケースが多いので、コロナウイルスで、北京オリンピックを安泰にすすめるのは、難しいかも知れません。