エンジニアのためのデータ分析基盤入門

【重点要約】

データ分析基盤エンジニアはDataOpsの考えで開発に集中し様々な変化に対応できる分析基盤を運用していくことが求めれれる。

そのために、セルフサービスの考えに従いユーザが自分で分析を行えるような環境の整備を行う。

（ユーザ向けインターフェースを複数用意し状況に応じて使わせられるようにする、メタデータ整備、データ品質確保、中間テーブル作成等）

また、正しいカラム数など分析基盤の整備状況自体をKPIとしてデータ分析基盤の整備プロジェクトを推進する。

【その他メモ】

・スレッド処理はディスクIOに限界有

・データのマスク化⇒コーホート、サブトラクトといった手法も有

・エンジニア向けとユーザ向けのインターフェースをバランスよく準備

・データの配置⇒データの偏りを小さくかつ１-2GB程度に分割すると効率的に処理可能

・メタデータの提供意義

　疑問点の解消、ドメイン知識のギャップ緩和、データ利用者・システムの動きをそろえる、非同期にデータを利用可とする、アクセス権限に縛られずデータを見つけるヒント

・中間テーブル作成はアクセスログをヒントに設計、まずはVIEWで作成しPDCAを回す