菅さんが総裁立候補を断念する一因になった横浜市長選がありましたが、菅さんの全面支援むなしく大差をつけて当選したのはコロナウイルス対抗のワクチンの有効期間の統計的分析で時々テレビに出ていた立憲民主推薦の元横浜市立大医学部教授の山中氏。この先生は医療統計学の専門家(データサイエンティスト)です。

コロナ対策の政府専門家委員会メンバである京大の西浦先生も、コロナに関する統計的分析と予測で知名度が高い方ですが、公開されている数字にウソがなければそのデータを使って数学的に正しい統計解析をすれば、危険なのか様子見でも良いのか、改善してゆくのか、悪化するのかの根拠ある予想がたちます。そこには政治的は意図は存在しません。根拠ある現状分析と見通しを示されると、都合よく解釈したい当局は困りますが、当局の思惑に従う傾向がでるような数字を提供(忖度)する皆さんもいるのが困ったところです。中国、ロシアなど独裁国家の発表する各種数字、統計が当てにならないのは、その様な点から来ています。

 

さて、数字を正しく評価する能力を持った人をデータサイエンティストと言いますが、受講資格を決めず、いわば誰でも2日でデータサイエンティストになれる素養をつけられる講座を開く商魂たくましいところがあります。

結論から言えば、統計処理の方法を知らない者が2日間で受講してもデータサイエンティストになれるはずがありません。もっと言えば、高校の確率統計を履修していて最低限の知識を身に着けていたとしても、その後何年も何十年も使わないでいたら、統計学を駆使して問題を分析して傾向を見つけたり、判断することは不可能です。そもそも、統計だけのHowtoコースだとしても2日では無理だし、社会に出てからそれなりの環境にいたとしても、データサイエンティストを名乗ってメシを食うことはできないでしょう。研修主催者には、『どうして断言できるのか?』と言われそうですが、逆に『どうして2日で使い物になるHowtoを見につけることができるのか』と質問したいものです。

 

そもそも、分析対象の業務を知らなければなりません。気象予報士もその方面でのデータサイエンティストと言えますが、彼らは気圧の高低、風向き、海水温、地形などが相互にどの様に影響し合っているか、因果関係を含めて知識を持っています。そこに、新しいデータを入れ込み、処理能力の高いコンピュータを使ってシミュレーションを行い、予想を立てます。

景気動向・金融の専門家も同様です。政治社会経済を示す動向指数とその元になるありとあらゆる指標とそれぞれの間の因果関係を頭に入れて予想を立てます。内閣府のホームページには各種生データがあるのでそれをダウンロードして使うことができます。しかし、生データがあっても、そのデータが何を示すのか、他のどのデータにどの程度関係しているいるのかを理解していないと、データをインテリジェンスに高めることはできません。すなわち、データを統計的に処理するHowtoを持っていても、分析対象のデータを生み出す業界、背景を知らなければ無用の長物ということです。

 

下図は、神奈川県の各都市のコロナ感染者数の推移ですが、データは神奈川県庁のホームページに載っているものです。人の出が多いところ、少ないところを比べれば、明らかに人口の多さ(人出)が感染に影響を及ぼしていることが分かると同時に、デルタ株が見つかって以降の立ち上がりを観るとこの変異種の感染力の強さが理解できます。これは、分析というほどのものではなく、単純に都市別の感染者者の推移をプロットしたものですが、それでもそれだけことが観察できます。統計のHowtoだけを身に着けても一般常識というか、俯瞰する力がないと、せっかくのデータも猫に小判になってしまうことが理解できるでしょう。

 

まずは常識、次に必要に応じて専門領域の知識、しかる後に統計のHowtoです。しかも、大学で統計学を専攻する必要はなく教養程度、もっと言えば高校程度で十分なことがほとんどです。私も第一次石油ショックの際に多変量解析の知識が必要になったくらいで、あとは常識的な統計の知識で十分でした。

1日や2日程度のセミナを受けてデータサイエンティストを名乗れると思わず日ごろの業務に邁進し、データの変化に疑問を持ち、解析しようという気持ちを持ち、実際にやってみることを勧めます

 

※質問はosugisama@gmail.comにどうぞ!

※リブログを除き、本ブログの無断転載、流用を禁じます。