ETLはExtract Transform Loadの略で、データウェアハウス構築の基礎となる部分です。
一言で言うと、ソースのデータを抽出してデータウェアハウス内のターゲットとなるテーブルにデータを加工し移行させるプロセスです。
具体的には
データを抽出する(EXTRACT)
・ソースモデルを理解する
・ソースデータにアクセスするスケジュールの設定
・データの変化を把握する
・ステージングエリアにデータを移す
データを掃除する(CLEAN)
・カラム・データタイプ分析
・ビジネスルールを分析・作成
・データのクオリティを定義
・データのクレンジングを行いステージングに移す。
データを統合する(CONFORM)
・ビジネスラベリング
・ビジネスマトリックスとパフォーマンスインディケータの作成
・メンテナンス
・ローカライゼーション
・統合したデータをステージングに移す。
データを移行させる(DELIVER)
・各ディメンションへのロード
・時間ディメンションテーブル作成・ロード
・TYPE1・2・3(Slowly changing dimensions)へのロード
・各FACTへのロード
・アグリゲーションの更新
など
のプロセスにわかれます。
ETL運用のステップは、だいたいこんな感じです。
1.スケジュール
2.ジョブの実行
3.例外のハンドリング
4.リカバリと再起動
5.クオリティのチェック
6.リリース
7.サポート
