企業に分散する生データを漏れなく活用
クラウド型のデータウェアハウス技術で新機軸を打ち出すグリーンプラム


http://www.atmarkit.co.jp/news/201004/27/greenplum.html

2010/04/27 @ITの記事

<以下、私個人が勝手に解説している内容です。間違っているなら気軽にツッコミしてね。>

ザックリ書きますと、オープンソース技術を基盤としたDWHソフトウェアを開発する米グリーンプラムは、大量データを高速に分析できる新バージョンとなる「Greenplum Database 4.0」を発表。それには、各サーバごとにディスクを用意してクエリやデータロードの並列処理を実現するアーキテクチャ「シェアード・ナッシング」に加えて、Googleが考案する分散処理アーキテクチャ「Map Reduce」を採用しましたよってのと、更に満を持して、クラウドベースのDWH製品「Greenplum Chorus」を同時発売しまっせってな内容。

「米国グリーンプラム」のHP
※英語版ですので、翻訳機能付きブラウザで内容を見る事が出来ます。

http://www.greenplum.com/

「Greenplum Database 4.0」のページ
※英語版ですので、翻訳機能付きブラウザで内容を見る事が出来ます。
 ↓
http://www.greenplum.com/products/greenplum-database/

「Greenplum Chorus(コーラス)」のページ
※英語版ですので、翻訳機能付きブラウザで内容を見る事が出来ます。
 ↓
http://www.greenplum.com/products/chorus/

BIとかDWHなどIT用語が出てきますので予備知識として、以下に再掲載します。

「BI/Business Intelligence(ビジネス インテリジェンス)」って何?っ方は、以下参照
 ↓
http://e-words.jp/w/BI.html

「DWH/Data WareHouse(データウェアハウス)」って何?っ方は、以下参照
 ↓
http://e-words.jp/w/DWH.html

「データマート」って何?っ方は、以下参照
 ↓
http://e-words.jp/w/E38387E383BCE382BFE3839EE383BCE38388.html

「シェアード・ナッシング/Shared nothing」って何?って方は、以下参照
 ↓
http://ja.wikipedia.org/wiki/Shared_nothing%E3%82%A2%E3%83%BC%E3%82%AD%E3%83%86%E3%82%AF%E3%83%81%E3%83%A3

「Map Reduce/マップリデュース」って何?って方は、以下参照
 ↓
http://ja.wikipedia.org/wiki/MapReduce

昨今、IT用語で良く聞かれる「BI」や「DWH」とは何なのかと言うことをリンク先から抜粋いたしますと…

「BIとは、業務システムなどから蓄積される企業内の膨大なデータを、蓄積・分析・加工して、企業の意思決定に活用しようとする手法。」

「DWHとは、時系列に蓄積された大量の業務データの中から、各項目間の関連性を分析するシステム。」

とあります。
BI関連では、先のブログで世界ERPパッケージ販売大手のSAPが、富士通と連携してSaaS化を行い日本企業にあったものを開発すると取り上げましたが、BIの根幹になるものは、「企業に眠る膨大なデータの活用や分析」がベースになります。
各種の業務システムに蓄積された膨大なデータを、いかに効率的に、蓄積して・分析し、各種企業にあった切り口で加工して、経営者や各階層の意思決定に役に立てようという手法がBIです。
そのBIの更に、下地になるシステムをDWH(データウェアハウス)とも言い、その蓄積されたデータの中から各項目の関連性を分析を行うことを主とします。

昨今、この蓄積されたデータをビジネスの意思決定に役立てようというという機運が、さらに高まりを見せ始めている。
当然この様な、業務データを随時蓄積し、企業の切り口(ニーズ)で、膨大なデータを分析するとなるとその仕組みは、かなりボトルネックになってきます。且つ、データの蓄積も問題ですが、その前にデータの任意の取得と分析をやっていくには、今までの手法では時間がかかっていました。
また、記事のように以下の記述があります。

「情報活用に関する技術や製品の開発が進められているが、増え続けるデータを保管するためのストレージの運用コストや、データを分析するために企業内のさまざまなシステムから情報を抽出し連携させる作業の煩雑さなどが、多くの企業において情報活用ツール導入の足かせとなっている。」

そこで、米国の「グリーンプラム社」が、オープンソース技術を基盤にしたDWHソストを開発し、様々な手法を取り込み処理の高速化を実現した訳ですが、その際今回の、同社のDWHソフト製品「Greenplum Database」では、各サーバごとにディスクを用意してクエリやデータロードの並列処理を実現するアーキテクチャ「シェアード・ナッシング」やGoogleが考案する分散処理アーキテクチャ「Map Reduce」を採用し、従来のRDB以上の検索と分析処理能力を作り出すことに成功している。


今回の最新バージョン「Greenplum Database 4.0」では、以下の機能も追加されている。

「ワークロード管理においてユーザーに応じて動的にクエリに優先順位を与える機能を追加したほか、データベースのハードディスク部分などに不具合が生じても、即座に原因を判断して自己回復する機能などを強化した。」

とあり、更に高機能性が増して来ている。

このDWHソフトも基本は、パッケージ販売であるのだが、ここでもクラウド・コンピューティングの波は確実に押し寄せているようで、クラウドベースのDWH製品「Greenplum Chorus」が満を持して発表された。

2009年6月に同社が提唱したプログラム「Enterprise Data Cloud(EDC)」のコンセプトの元、「Greenplum Chorus」は具現化されているクラウド型のデータウェアハウス技術とも言える。
では、EDCとは何かと言うと、以下の様に記載されている。

「EDCは、クラウド技術を用いて物理的に分散しているDWHやデータマートを論理的に1つのプラットフォームにまとめようとするコンセプトで、それを具現化したのがChorusである。」

要は、DWHやデータマートの構造は、物理的に分散管理されているが、それを論理的にまとめるコンセプトを具現化したのが「Greenplum Chorus」と言うことらしい。
この「Greenplum Chorus」の具体的な、機能となると以下の様に記載がある。

「プロビジョニングの自動化、データの仮想化、データコラボレーションといった機能を持ち、DWHやデータマートとして企業内に分散するデータを統合するプラットフォーム」

とあり、プロビジョニングの自動化やデータの仮想化などを備えていると言うことである。

「プロビジョニング」って何?って方は、以下参照
 ↓
http://www.atmarkit.co.jp/aig/04biz/provisioning.html

これらのプラットフォームに各種機能が統合される「Greenplum Chorus」に対して、以下のエンタープライズDWH(EDW)を併用することで、これまでEDWでのデメリット補えるようになったと記事にはあり、

「EDWやデータマート、企業の各システムに分散するすべてのデータを収集、分析できる」

ようになるという。

そもそものEDWのデメリットは、以下の点にあったという。

「EDWは財務情報などガバナンスを効かせなければならないデータを扱うことが多いため、より深く掘り下げた、あるいは包括的な分析をする際にはEDW以外のデータにアクセスする必要があった。また、EDWに取り込まれるデータは生データではなく統合されたデータであること、ビジネス傾向を見るような長期的なデータではなく短期的なデータであることなどから、柔軟なデータ分析が難しいとされていた。」

が、上記の「Greenplum Chorus」の併用で改善が見込めるようになるという。

「EDWを導入する企業に調査をしたところ、企業にあるデータのわずか10%しかEDWで扱われていなかった。裏を返せば、そのほか90%のデータが(Excelなどの)スプレッドシートや個人PCなどに存在していたのである。こうした従来からの問題に対処するのがChorusだ」(バッジ氏)

とあるように、企業にあるデータを10%でしかEDWとして、活用しておらすその市場は、90%上同社ではあると見込んでいるようで、実際、「BI」の高まりとともにEDW導入の機運が起こっていると見ているようだ。
その鍵になると見ているのが、「Greenplum Chorus」となるようだ。

Chorusを設計するうえで具体的には、次の4つのポイントに重点を置いたという。
※以下、記事から(1)~(4)を抜粋

(1) セキュリティの確保。
  ---ユーザーの権限を細かく設定し、誰が社内データにアクセスできるか、公開できるかなどを具体的に管理する仕組みを構築。

(2) 異なる部門や事業所の拠点が遠く離れていても、Chorusにある同じデータを介してコラボレーションを行う。

(3) どのようにデータをクラウドの中で整合性、一貫性を持って管理していくかに注力。

(4) カリフォルニア大学で研究開発が進められている「MAD(Magnetic、Agile、Deep)」という次世代データ分析技術を採用。
  ---これまでは各種EDWに合致した形式でデータを投入する必要があるため、分析に使うのは生データではなく制御されたデータになっていた。
  ---MADを活用することで企業に散在するすべての生データを引っ張り出し、自由度を持った分析が可能となる。


で、米国の「グリーンプラム社」の製品としての「Greenplum Chorus」の具体的な使用で「なぜ顧客はサービスを解約したのか」と言う統計的情報を得る為に、「Greenplum Chorus」の使用法が記載されている。
現時点でのドイツテレコムの子会社で、モバイル通信サービスを提供するT-Mobileで導入事例が記載されている。

「同社は以前より100テラバイトの容量を持つ米テラデータのEDWを活用して事業報告書や財務指標レポートのためのデータを生成していたが、同社の事業において重要なデータ指標となるユーザー解約率の細かな分析はEDWでは適さなかった。」

要するに、膨大な100テラバイトに及ぶ蓄積データを「米テラデータのEDW」にて、財務指標レポートなどをデータから作成していたが、どうも上手くユーザ解約の分析は同社では出来なかったようである。

「そこで、EDWを補完する形でグリーンプラムのデータベースおよびChorusを導入し、社内のさまざまなシステムに散らばる顧客データやユーザーの明細書などを集約、分析した。その結果、2週間で「SNSでの接続性に問題があること」が解約率の最たる理由であることが明らかになった。」

EDWの膨大なデータを「グリーンプラムのデータベースおよびChorus」に切り替えて、分散されていたシステムデータを集約して、分析を行ったところ、同社に適合しうる分析データとして「SNSでの接続性に問題があること」が解約率の最たる理由であることが明らかになった。」とある。
分散していた情報を集約し、解析分析することが、「米テラデータのEDW」より、機動的に成果を出せたという。

そこで、米グリーンプラム アジア太平洋地域 副社長およびゼネラルマネジャーのキース・バッジ氏は、以下の様にコメントしている。

「T-Mobileは、既存のEDWに加えて、分析のインフラとしてグリーンプラムのデータベースおよびクラウドサービスのChorusを抱き合わせることで、高度なデータ活用を実現した。また、テラデータのEDWに比べてグリーンプラムのEDCは10倍のデータ容量に当たる1ペタバイトをサポートするため、大量のデータを処理できるようになったのだ」(バッジ氏)

注目すべきは、「テラデータのEDWに比べてグリーンプラムのEDCは10倍のデータ容量に当たる1ペタバイトをサポートするため、大量のデータを処理できるようになった」であり、分散されていた情報を集約して、分散型並列処理にて大量にこなすことで、比較的短時間で行えるようになったと言うことである。その中核になっているのが、クラウドベースのDWH製品「Greenplum Chorus」であるということに成る。

バッジ氏によると、このクラウドベースのDWH製品「Greenplum Chorus」の販売戦略としては、まずは大企業の一部門などでトライアル版の普及が進み、アジア市場を視界に入れた状態で導入企業を増やす方向だという。

「アジアの多くの企業は大規模なデータを社内のあちこちに分散させており、情報活用がなされていない。販路拡大の見込みは十分ある」

とバッチ氏は今後の見込みを見ているよう。また、

「DWHの競合他社と比べて製品の価格帯が低いというのもアジア市場において強みになっているという。」

現在、日本企業では、BIの普及率は大企業の一部では進んでいるであろうが、まだまだ浸透度は浅いと思われる。
そう言う面では、今後の展開次第と言うか、「米国グリーンプラム」の戦略次第では、このBIとDWH、データマートの分野では、クラウド・コンピューティングと相まって、波乱含みになっていく可能性が非常に高い。
従来のRDB型のデータ分析ではないアプローチで「米国グリーンプラム」の製品は、日本企業に展開を掛けてくるので、システム構成や従来の開発とはやや異なる見方が必要になってくるかもしれない。

このDWH関連の蓄積・分析・解析などの処理では、クラウド・コンピューティングの分散処理は欠かせないものであり、プロビジョニングの自動化機能などその時々に合わせた仕組みを可動的に出来るようにしておかないとこの先のビジネスとしては、成り立たないのかも知れない。

最後にバッチ氏は、同社のイノベーション後の立ち位置についてコメントしている。

「これまでグリーンプラムは、価格パフォーマンスの高いDWHベンダとして顧客から支持を得てきた。今後はこれに加えて、新しい技術開発で注目を集めるイノベーションリーダーとして地位を確立していきたい」(バッジ氏)

果たして、日本ベンダー企業は、この様に次々に現れる新技術を生み出すようなチャレンジ精神を持って、具現化できるのか?
今後の黒船の如き、来襲に向けて対抗しうる何かで対抗できるのか考えないといけないのではないだろうか?

どこどこの海外製品は出来ていないとか、甘い考えで現実を見ないのは、愚の骨頂でしかないのではないだろうか?