$yamasan007の勝手にクラウド・ニュース解説!-Hadoop
※Hadoop(ハドゥープ)という名前は開発者の子供が付けた象のぬいぐるみの名前が由来といわれています。


DWHからHadoop移行で成功事例、欧州広告企業

http://headlines.yahoo.co.jp/hl?a=20100315-00000000-zdn_ait-sci

3月15日19時35分配信 @ITの記事。

<以下、私個人が勝手に解説している内容です。間違っているなら気軽にツッコミしてね。>

ザックリ言いますと、nugg.adでは、2007年から2009年までの間、PostgreSQLをベースに古典的なデータウェアハウス(DWH)によるシステムを構築していたが、2009年6月から10月にかけてHadoopベースのシステムに移行したら、メッチャ処理が早くなりましたぜって内容。

そもそも「Hadoop(ハドゥープ)」って何?って方は、以下参照。

http://www.littel-hadoop.jp/hadoop.html

データウェアハウス(DWH)って何?って方は、以下参照。

http://e-words.jp/w/E38387E383BCE382BFE382A6E382A7E382A2E3838FE382A6E382B9.html

Hadoop(ハドゥープ)は、参照先を見ていただくと解るんですが、バッチ処理などで分散処理させる為の「手軽に複数のマシンに分散して処理できるオープンソースのプラットフォーム」らしいです。

記事では、以下のような興味深い内容が記載されています。

「それまで5日かかっていたような処理が1時間にまで短縮し、計算処理の大幅時間短縮によって、これまで提供が考えられなかったような付加価値サービスの提供が可能となったという。」

単純な処理時間を見ると凄いです。
それも別段に高スペックのマシンを要せず、ロースペックマシンを多く使い分散させて、処理を行う事で実現出きるようです。

この仕組みを再構築して、欧米企業が益があったことを書いています。
クラウドを考える上で、その集約た処理データをどのように効率よく実機への反映、DBへの反映そこから業務への反映と処理が複雑に成りますからインフラ側での自動処理の仕組みは非常に重要になります。

とは言え、その自動化の仕組みは、なかなか難しく簡単でもありません。
その一部に分散処理の管理があるのですが、そこに「Hadoop(ハドゥープ)」を導入する事で多くの処理に軽減が見込めるとするとクラウド業者も無視は出来ないものともいえます。

実際は、クラウドとは言え、どこかのDCにデータを保持し、常に顧客の要望に答え、バックで自動化の処理(プロセス)が稼動していますからバッティングの考慮やフェイルオーバーの考慮など様々な問題をクリアにして且つ、負荷に耐え得る仕組み(バックエンドシステム)を構築しなくてはいけません。

フェイルオーバーって何さ?って方は、以下参照。

http://e-words.jp/w/E38395E382A7E382A4E383ABE382AAE383BCE38390E383BC.html

そこでシステム分散管理の仕組みが必要ですから上記のような記事にも目を光らせておく必要があります。

多くの方々が開発者としてクラウドそのものに着手する事は、少ないかも知れません。ただ、その一翼となる様なシステム開発に関わるかも知れない時代になっている事に気づくべきなのかも知れません。