hadoopの入門書「hadoop徹底入門」のキーワード


Hadoop徹底入門 第2版 オープンソース分散処理環境の構築/翔泳社
¥3,990
Amazon.co.jp

レスポンスタイム(レイテンシ,latency)
スケーラビリティ(拡張性)、スケールアップ、スケールアウト、スループット
Hadoopマスタサーバ(JobTracker,NameNode)、Hadoopスレーブサーバ(TaskTracker,DateNode)
HDFS:分散ファイルシステム、MapReduce:クラスタ環境で並列分散処理、Hive、Pig、Sqoop,HBase,ZooKeeper
IAサーバ、1U、2U、ラック
透過性、拡張性、HA構成(冗長化)、多重度、メタ管理、インデックス
シーケンシャル(連続的)、Map,Shuffle,Reduce
運用事例、Posデータ解析によるフィードバック、webアクセスログ解析、全文検索転置インデックス、統計的機械翻訳、フォーマット・画像変換、機械学習:金融市場の同席分析、遺伝子解析、気象予測、渋滞予想、音声認識、文字認識のパターン認識
不正要求のフィルタリング()、重複除去
形態素解析、CDH(Clouderas distribution in cluding Apache Hadoop)
ローカルモード、疑似分散モード、完全分散モード
DateNode,NameNode,レプリケーション、レプリカ、ファイルシステム、ブロック、ブロックサイズ64MB、死活監視
ack待ちキュー、DataNodeパイプライン、メタデータ、パーミッションクオータ、quota(割当)、パケット
ハートビート:DateNodeがNameNodeに自身の生存を伝えるパケット
ラックアウェアネス:レプリカの配置をコントロールする。同じラックにならないようにとか
ブロックレポート
fsimage:ファイルシステムイメージ、チェックポイント
edits:編集履歴、トランザクションログ(write-ahead log)
HDFSクラスタ、最小レプリケーション、セーフモード
ファイル・ディレクトリのパーミッション、POSIXライク、setuid,setgid,stickyビット
HDFS設定ファイル:core-site.xml,hdfs-site.xml,hadoop-env.sh,hadoop-metrics.properties,hadoop-poliy.xml(ACLのポリシー)
JPSコマンド:java仮想マシンプロセスステータスツール
HAクラスタ、非HA構成、SecondaryNameNode
hdfsコマンド、dfsサブコマンド、CLIベース、ディレクトリ・ファイルを作成したり、コピーしたり、所有者・権限を変更したり、削除したり・・・
MapReduceフレームワーク:map,Shuffle&Sort,Reduce,Map処理、スプリット(入力データ、InputSplit)、キーバリュー解釈、Partitioner,Reducer,Combiner、マージソート、パーティション(Reduce処理の入力)
MapReduceのノード構成、処理単位は「ジョブ」「タスク」野二つ。ジョブはフレームワーク内で複数のタスクに分割。JobClient,JobTracker,TaskTracker
JobTracker:分散処理制御の司令塔。単一障害ポイント
TaskTracker:ワーカプロセス、childeプロセス
データローカリティ:データファイルを移動するのではなく、データを操作するプログラムを移動する。大容量データの移動は転送料、オーバーヘッドがでかい。
ジョブID,タスクID、処理スロット状況、ストット数:taskTrakerで並列で実行する単位。
mapResuceの設定ファイル:/etc/hadoop/conf/内。mapred-site.xml、hadoop-env.sh,hadoop-metrics.properties,hadoop-policy.xml
mapred-site.xml,mapred.job.trackerプロパティ、Jobtrackerの起動ホストとポート/番号

/var:ステージング用のディレクトリ
serviceコマンドでjobtracker,tasktrackerのサービスを起動。
動作確認、起動した事の確認方法は、jps、netstat、psコマンド
$ps ef | grep mapreduce


CLIのMapReduce管理:job,queue,mradmin