Hadoop 商用実装を考えてみる | Quitada セカンドブログ

Quitada セカンドブログ

SEO コンテストの残骸です。

データ量爆発が起こりつつある企業 IT 環境において、大量データの高速解析基盤ソフトウェアの切り札として Hadoop がもてはやされつつありますが、従来の企業 IT ソフトウェアの普及パターンと明らかに違う方向性があると思っています。

従来の企業 IT ソフトウェアといえば、まずは特定商用ソフトウェアベンダが何らかのソフトウェアをリリースして、普及して、オープンソースでそれをパクって置き換えていくという構図が多かったと思います。UNIX→Linux の流れしかり、J2EE アプリケーションサーバのそれしかり。でも、Hadoop はいきなりオープンソースなんですよね。

なので、逆に既存の商用ソフトウェアベンダが、「Hadoop はオープンソースなのでサポートどうするんですか?」とか「Hadoop のここがダメなのでミッションクリティカルなシステムには使えません」とかいう切り口で、それらを改善した Hadoop 互換なソフトウェア製品をだしてくるかもしれない。

一方、Hadoop のアーキテクチャを考えると、簡易な分散処理機構である Hadoop MapReduce、分散ファイルシステムである Hadoop HDFS、そしてそれらの共通部分である Hadoop common に分けられるので、Hadoop がある程度普及した段階で商用実装ということになると、そられのどれかを置き換えて付加価値を提供するという方向性が考えられます。オープンソースなので、公開された API で連携とればシームレスな置き換えができるはず。

実際、Hadoop HDFS の置き換えの製品として、米 Appistry 社が Appistry CloudIQ Storage Hadoop Edition というソリューションを展開しているそうで。

#日本ではまだ、Appistry 社製品の代理店かないっぽですけど(2011 年 5 月現在)。

本ソリューションは、Hadoop HDFS の肝である NameNode が単一障害点になっている点と、パフォーマンス上のボトルネックとなる可能性を排除した製品で、お客様によっては十分置き換えの動機となるでしょう。

そういった意味では、Hadoop がひとつの大量データ高速解析基盤フレームワークとして、既存の商用製品をベースに Hadoop 互換機能を付与し、様々な付加価値を提供するという流れは、分散処理ミドルのエコシステム構築という観点で興味深い。