1.データ収集

 

  AWS Direct Connet , VPN ,

 

バッチファイル転送

・S3 CPコマンド

・HULTFなど

・ファイル転送

 

AWS DMS, マルチAZ対応、 AZとはAvailability Zone

 

AWS IoT

 

Amazon Kinesis ストリーミングデータ を収集、加工、分析

 

Amazon Kinesis Firehose ストリーミングデータを AWS に簡単にロードします。

Amazon Kinesis Analytics ストリーミングデータを標準SQL、簡単に処理および分析。

Amazon Kinesis Streams ストリーミングデータを処理および分析するカスタムアプリケーション

 

2.蓄積

 

Amazon S3 (Amazon simple Storage Service)

 

Amazon Glacier

データのアーカイブおよび長期バックアップを行うための、安全性と耐久性に優れたきわめて低コストのクラウドストレージサービスです

 

3.加工

 

  ETL 雑種多様な情報をDWHにまとめる処理のこと

 

  ETL 

Extract、   抽出

Transform、 変換

Load      書き出し

 

 

  ETLを使って、情報を分析・加工しやすい状態に纏める

 

-----------------

 

Amazon EMR  (Amazon Elastic MapReduce)

 

 フルマネージドなHadoopを提供

 

Amazon EMR では、管理された Hadoop フレームワークが提供され、動的にスケーリング可能な Amazon EC2 インスタンスで大量のデータを、簡単、高速、高コスト効率な方法で処理できます。また、Apache Spark や HBase、Presto、Flink といった他の一般的なフレームワークを Amazon EMR で実行することや、Amazon S3 や Amazon DynamoDB といった他の AWS データストア内でデータを操作することもできます。

 

Amazon EMR は、ログの分析、ウェブインデックス、データ変換 (ETL)、機械学習、財務分析、科学シミュレーション、生物情報科学研究を含む、さまざまなビッグデータを確実かつ安全に処理します。

 

  Amazon Elastic Compute Cloud (Amazon EC2)

亚马逊弹性计算云(EC2,Elastic Compute Cloud)是一个让使用者可以租用云端电脑运行所需应用的系统。 

Amazon Elastic Compute Cloud (Amazon EC2) は、安全でサイズ変更可能なコンピューティング性能をクラウド内で提供するウェブサービスです。ウェブスケールのクラウドコンピューティングを開発者が簡単に利用できるよう設計されています

Amazon Redshif (DWH)

 

Amazon RDS (Amazon Relational Database Service) - データマート

 

EMRのバッチ処理のオフロード

Presto, HiveQL , Spark SQL

 

AWS Glue:ETLサービス  

  

  

 

4.分析

 

  アドホックな分析 (限定目的な分析)

ーーーーーーーーーーー

Amazon Athena - S3 内のデータを標準的な SQL を使用して簡単に分析できます

Amazon Redshift Spectrum S3のデータを直接クエリし、エクサバイトまでスケール可能

Amazon QuickSight

 

定型レポーティング 

 

MPPとは、極めて多くのマイクロプロセッサやコンピュータを協調して動作させ、一つの高性能なシステムを構築する手法。

 

 

P29

Redshiftが向く⽤途と向かない⽤途