SREを始めるにあたって、ビジネスサイドのメンバーやサーバーサイド以外のメンバーも巻き込む必要があるので、コンセプトを理解してもらうために30秒で理解できるように言葉を砕いてみました。どうでしょう。
SRE(Site Reliability Engineering)とは?
- 信頼性を可視化してコントロールする
- 手作業でやっていた運用業務を自動化する
信頼性とは?
- システムがユーザーの期待した役割を果たすことができる能力
- エラーにならない
- レスポンスが速い
- 使いたいときに使える
- 問題が起きた時の対処が適切
SLI(Service Level Indicator)とは?
- 信頼性を測るための指標
- クリティカルユーザージャーニーを元に決定する
SLO(Service Level Objective)とは?
- 計測したSLIに対する目標値
- ユーザーが不満を抱かずにサービスを利用できる状態の数値
SLOを設定する理由
- 改善が果たしたユーザーへの影響を把握するため
- 改善に対してどれくらい投資すればよいかを判断できる
エラーバジェットとは?
- SLOがあることで導かれる許容できるエラーの量
- バジェットの消費量からさまざまな判断を行う
ユーザージャーニーとは?
- サービスを利用する大半のユーザーが行う一連の操作
- その中で1番重要なものをクリティカルユーザージャーニー(CUJ)に設定する