AWSサービス(Elastic MapReduce)とは | 株式会社スタイラジーの「居心地の良い」ブログ

株式会社スタイラジーの「居心地の良い」ブログ

会社の事や仕事の事、
その他イベントなど、
色々な話題を思うがままに
株式会社スタイラジー社員
の日常を紹介します。

株式会社スタイラジーの
「居心地の良い」ブログ、
2008年1月7日スタート!

こんにちはミニオンボブ

 

今日は、

【AWSサービス(Elastic MapReduce)とは】について

ご紹介していきます。

 

1. Elastic MapReduce(EMR)概要

・マネージド型Hadoopフレームワーク環境を提供するサービス。

・実態は、Hadoop環境+Hadoop上でよく使われるソフトが

 あらかじめ用意されたEC2テンプレートみたいなものと思われる。

・手間のかかるクラスタ環境を簡単に構築・管理できるが、

 EC2とEMRの両方で料金が必要で、さらに台数分カウントされる。

 Hadoopの魅力を引き出そうとすると大量のノードが必要になるため要注意。

・オープンソースのHadoopと比較して、

 何か特別なことができるというような話は聞かない。

 

2. EMRを使うメリット

・複数のサーバにデータを置き各サーバで並列に

 処理できる分散環境を容易に扱えるので、

 大量のデータを短い時間で処理したいケースに向いている。

 TB、PB級になると強みがでてくると思われる。

・クラスタ環境は構築・管理に手間がかかるがEMRはマネージド型なので、

 スケールアウト・スケールインして計算能力を調整することで

 コストの最適化をするのに有効。

・AWSのS3やDynamoDBと連携することを考えて用意されているので、

 DynamoDBのデータ処理を行う環境が簡単に手に入るかも(?)

 

3. EMRを使うデメリット

・少量のデータ処理には向かない。Hadoop自体のオーバーヘッドがかなりあり、

 遅いという話もでている。

・サーバ台数に性能が依存するため沢山のノードを

 用意できないと魅力があまり無いが、コストは台数に比例してしまう。

・環境構築済みのEC2を提供するという形態のため、

 立ち上がりの時に時間がかかるという情報あり。

 ノードの運用次第ではあるが、レスポンス速度を気にする場合は使いづらいかも。

 

4. まとめ

・ユーザがアクセスするたびに行う処理ではなく、

 日単位や週単位で動かすバッチ処理、データを蓄積してから行う

 分析処理のような箇所では活用できるでしょう。

 ただし一度に処理するデータ量がGBにも満たない場合は入れる必要はないでしょう。

・DynamoDBのデータを処理しやすい環境を

 用意できるという使い方も考えられます。

 (Hiveがあるらしいですが、使い方や設定が不明のため検証しないとわからない。)

 

次回は

historyコマンドの設定です!!

 

ではまたバイバイ