「ビッグデータ革命」よりも期待したいこと | 安濃爾鱒のノート

安濃爾鱒のノート

これは web log ではありません。
なんというか、私の「ノート」です。

 "Big Data Revolution"

 「ビッグデータ革命

なんてことが言われている。

 

 Data の解析手法が飛躍的に進化し、大量の Data から必要な情報を効果的に抽出・分析し利用することが可能となり、新事業の創出や新たな知見の導出などが期待されている

 

とかいう話らしい。

 で、それで具体的になにが出来るようになるのか、というと、結局、消費者の implicit な傾向を検出して商品の売り上げを増やすとか、カーナビを高機能化するとかいった、まぁ、確かに、それはそれですばらしくて立派なことだし、それで儲けるひともでてきるのかもしれないけれど、それって、所詮は金儲けレベルの話にすぎない。

 

 それより、この「ビッグデータ革命」の前提である、膨大で煩雑すぎる Web 上の情報を集計してみることができるようになるということと、一般人にも結構高性能のコンピュータが持てるようになったことから、もっとすばらしいことができるようになるのではないか、と私は期待している。

 

 具体的な例を挙げれば、つまり、市井から、

   「第2の Victor Zorza 」

とか

   「第2の Berthold Jacob Salomon 」

とか

   「第2の Emmanuel Todd 」

が出てくることも考えられる、十分期待できるんじゃないか、と思っているのだが、どうだろうか?


 Victor Zorza (ビクター・ゾルザ)というのは、
安濃爾鱒のブログ-Victor Zorza

秘密情報を一切読まないで、一日十時間ぐらい演説記録や公式発表などの公開情報だけを読み続けて、1968年、「プラハの春」の後、ソ連軍が介入することや、1960年代後半から70年代前半まで続いた中国の「文化大革命」という権力闘争を見抜いた人物である。

 Berthold Jacob Salomon(ベルトールド・ヤコブ)というのは、ドイツの普通の新聞の記事だけから、ドイツ軍の軍令系統、参謀本部の構成員名、機械化師団の特殊部隊の存在、168名の陸軍司令官の氏名と経歴などの最高軍事機密を読み解いて出版・公表し、Adolf Hitler(ヒトラー)を激怒させた人物である。

 

 Emmanuel Todd (エマニュエル・トッド)というのは、安濃爾鱒のブログ-Emmanuel Todd世界の家族制度を分類し、大胆に家族型と社会の関係を示し、例えば、なぜ共産主義体制はマルクス が予想したような資本主義先進国ではなくロシアや中国で実現したのか、なぜ遠く離れたドイツと日本の社会制度が似ているのか、なぜアメリカ人は自由と独立を重視するのか、などの、それまで説明できなかった様々な疑問を説明してみせた。また、1976 年、最初の著作である "La Chute finale"(『最後の転落』) において、10年から30年以内のソ連の崩壊を人口統計学的な手法で予想し、的中した人物である。

 

 これらの方々は、その時代には、非凡な才能の持ち主が大変な努力の結果としてこのような成果を勝ち取られたのであろうが、今の時代、つまり、膨大な情報が Web 上に載っており、(しかもその情報としては、自分達は"選良"で"社会の指導者"だと勘違いして国民の代表であると僭称している痛いアホどもが、自分のイデオロギーを一般人に押し付けようとして偏向歪曲情報や更には全くの創作作文を一般人にばら撒こうとしている「マスゴミ」によるものだけでなく、こういうブログのような、市井の一般人が自分自身の直接の経験に基づいて発信している情報も含まれている)その膨大な Data を集計してみることができるようになっており、一般人にも結構高性能のコンピュータを持つことが可能になったことから、一般人のなかから、彼らのようなことをやっちゃう人が出てこないものかなぁ、と期待しているのである。

 

 例えば、まず、市井の一般人たちが、日常のこと、自分が直接見たり聞いたり感じたりしたことをブログやSNSなどを利用して不特定多数向けに直接情報発信をして(「マスゴミ」を経由せずに、自ら直接不特定多数に向けて情報発信することが大事)そして、その一般人のなかの一部のモノ好き、オモシロガリなヤツなどが、その web 上の膨大な情報の中から、implicit な傾向を読み解くことを試みるのである。

 

 その手法としては、具体的な例を挙げてみれば、幾つかのキーワードでググッて、その結果を plain text document file に落とし そこから更に awk とか sed などで 特徴のあるData を抽出し、それを 表計算ソフトなどに入力して、マクロbな傾向を明示化する、とか。Data のサイズが膨大なので、個人が持っているパソコンでは、その一連の処理に数十時間とか数日とか数週間とかかかってしまうことになるかもしれないが、でも、それだけ待っていれば、すごいことが判ったりするんじゃないか、有効なアルゴリズムやキーワードをみつけるのは簡単ではないだろうが、膨大な数の市井の一般人が色々試してみれば、下手な鉄砲も…、というようなぐまいに、これからなんか出てこないものかな、と期待しているのである。