高まるHadoop導入機運、日本のHadoopが終結
まず、Hadoopとはなにか?
Hadoopとは、Apach HadoopでGoogleのGoogle File SystemとMapReduceのオープンソース版です。
Googleの分散処理技術をオープンソースに実装しているみたいです。
実績としてはIBM、Yahoo!、amazon、Facebookなど有名なサイトに使用されているので注目を集めています。
Hadoopは、これから次々企業で採用されていくと思いますね。
Javaで実装されているそうです。
そもそも、Hadoopの元になったGoogle File SystemとMapReduceとは?
ざっくり話します。参考サイト→CodeZine
GFS(Google File System)
・大量のデータを大量マシンので安全に保存するための分散ファイルシステム
・複数のマシンのディスクを1つのディスクとして見せるファイルシステム
特徴としては、データを冗長化して1つのディスクが壊れてもデータが失われない。
MapReduce
・大規模なデータを大量のマシンで並列に処理するための分散計算フレームワーク
・ウェブ検索のためのインデックス作成処理や、ログ解析、機械学習などの処理に利用
MapReduceは、MapフェーズとReduceフェーズに分かれる。
Mapフェーズ
大量の情報を分解し、必要な情報を抜き出して出力。
Reduceフェーズ
Mapフェーズで抽出された情報を集約し、それに対して計算を行い結果を出力。
GoogleのGFSにあたるのが、HadoopのHadoop Distributed File Systemで、MapReduceにあたるのが、Hadoop MapReduceになります。
その他、関連情報としてBigTableとかありますが、サイトなど見てください。
内容は浅すぎますが、実際知識(IT関連の知識も)が浅いですのですみませんがこの辺で。
実際、やって知識深めるしかないですね。
大量データなどを扱うところには、これから普及していきそうですね。
追記
Hadoopについて書かれているブログ見つけたました。
分かりやすく書かれています。
Hadoopで、かんたん分散処理
まず、Hadoopとはなにか?
Hadoopとは、Apach HadoopでGoogleのGoogle File SystemとMapReduceのオープンソース版です。
Googleの分散処理技術をオープンソースに実装しているみたいです。
実績としてはIBM、Yahoo!、amazon、Facebookなど有名なサイトに使用されているので注目を集めています。
Hadoopは、これから次々企業で採用されていくと思いますね。
Javaで実装されているそうです。
そもそも、Hadoopの元になったGoogle File SystemとMapReduceとは?
ざっくり話します。参考サイト→CodeZine
GFS(Google File System)
・大量のデータを大量マシンので安全に保存するための分散ファイルシステム
・複数のマシンのディスクを1つのディスクとして見せるファイルシステム
特徴としては、データを冗長化して1つのディスクが壊れてもデータが失われない。
MapReduce
・大規模なデータを大量のマシンで並列に処理するための分散計算フレームワーク
・ウェブ検索のためのインデックス作成処理や、ログ解析、機械学習などの処理に利用
MapReduceは、MapフェーズとReduceフェーズに分かれる。
Mapフェーズ
大量の情報を分解し、必要な情報を抜き出して出力。
Reduceフェーズ
Mapフェーズで抽出された情報を集約し、それに対して計算を行い結果を出力。
GoogleのGFSにあたるのが、HadoopのHadoop Distributed File Systemで、MapReduceにあたるのが、Hadoop MapReduceになります。
その他、関連情報としてBigTableとかありますが、サイトなど見てください。
内容は浅すぎますが、実際知識(IT関連の知識も)が浅いですのですみませんがこの辺で。
実際、やって知識深めるしかないですね。
大量データなどを扱うところには、これから普及していきそうですね。
追記
Hadoopについて書かれているブログ見つけたました。
分かりやすく書かれています。
Hadoopで、かんたん分散処理