ビッグデータの正体 著ビクターマイヤー=ショーンベルガーを読んだ。非常に勉強になったので記録しておく。

 

本書の主旨:ビッグデータとは何か?ビッグデータが出現して一体何が変わったのか?社会にどのような変化をもたらすのか?

 

ビッグデータという単語を始めて耳にしたのは数年前のニュース番組だったと思う。ビッグデータによって天気予報の精度が上がるとかいった内容だったと思う。ビッグデータによってもたらさられる技術の進歩などはよく喧伝されているが、ビッグデータが一体何なのかについての解説はあまりなかったと思う。ビッグデータとは何か?何が画期的なのか?そのような初歩的なり疑問は本書を読んで大きく解決した。

 

ビッグデータとは何か?一言でいうなら「分析したい対象に関するすべてのデータ」である。何か研究をする際には研究対象のデータを収集する必要が大抵あるものだが、従来はこういったデータは網羅的にすべて収集し記録するということができなかった。例えばどの地域の住人がどの候補者に投票しやすいか?といったことを知りたい場合、理想的には選挙区すべての住人を一人残らずアンケートをとるのが手っ取り早いがそのようなことを実行できるほどの計測方法も、記録媒体もなかったのである。しょうがないので1000人くらいにアンケート調査を行い(標本)、この時得られた標本から地域ごとに指示する候補者を推定したりしてきた。しかし現代はインターネットの普及とコンピュータの性能の向上により住民全員から一人残らずアンケートをとり、アンケートの回答を保存しておく仕組みが存在しているのである。

これによって従来の統計分析よりはるかに多くの有益な情報をアンケート結果から引き出せるようになった。例えばA地区の女性はだれに投票するのかといった小さい集団の細かい情報まで引き出せるようになる。

 

重要な点はすべてのデータを扱うということである。従来の統計分析は母集団から標本を抽出し母集団の大まかな動向を探るというものだったが、ビッグデータ分析は母集団のすべてのデータを取得してから母集団内の小さな集団の動向や小集団同士の相関関係を探るというものだ。ビッグデータ分析は統計分析逆なのだ。

 

結局のところビッグデータとは何かと聞かれた時の端的な回答はある分析対象に関するあらゆるすべてのデータの集合と答えるのが最も適切だと思う。何か複雑なシステムではなくむしろ手法はかなり原始的なもので、とにかく片っ端からデータをあつめた結果できたデータの塊のようなイメージだ。これらのデータは企業や政府などがおのおの独自に収集してきたものだ。検索データ、健康保険の使用記録、気象データ、通信データ量、、、こういった膨大なデータを現代は大量に収集し保存することができるので、きわめて網羅的なデータベースが結果的に作ることができるのである。このデータベースから相関関係のあるものを抽出することも容易にできる。例えば天候と通信データ量に相関があるor無いとかいった判断を機械がしてくれる。人間は何と何が相関関係にあるかすら考える必要はなくひたすらデータを網羅的に取得し続ければいいのだ。つまりここ最近、人類が膨大で網羅的なデータを収集・保存することができるようになったのだが、その結果、その網羅的なデータから非常に有益な情報を引き出せるようになったというのが現状でこの膨大なデータ群のことをビッグデータとなんとなく故障しているのだ。

 

さて網羅的な膨大なデータ(つまりビッグデータ)を使っているうちに面白い事実が分かった。それは「量さえあれば精度は重要でない」ということだ、機械翻訳の仕組みを開発しようとした際に、ある企業は公文書のような精度の良いデータから機械翻訳の仕組みを構築したが、グーグルの機械翻訳に負けた。グーグルはインターネット上の膨大だが精度の低い乱雑な文章が混じった文章をデータとして使用し、機械翻訳の仕組みを構築した。データの量が膨大であれば、多少の荒いデータが混じっていても問題がないのだ。

 

さらにビッグデータが突きつける大きな変化は「因果から相関の世界へ」である。従来の研究は仮説を立て、実験を行い得られた結果から仮説の正しさを実証するという手法がとられているが、ビッグデータ解析はまず膨大な様々な実験結果をデータとして収集してしまい、そのデータを眺めて○○と××は強い相関関係にありますと報告してくるのだ。その報告はおそらく非常に正しい。しかしなぜそのような結果になるのかが人間にも機械にも分からないのだ。つまり結果となる相関関係がだけが与えられ、相関関係が生じる理由、つまり因果関係は与えられないこれがビッグデータ解析がもたらす因果から相関への世界への転換である。

 

今後はおそらく膨大なデータを取得できる立場にある企業の価値が高まる。企業が持つデータ量が資産として財務諸表に記載される未来が来るかもしれない。