SREを始めるにあたって、ビジネスサイドのメンバーやサーバーサイド以外のメンバーも巻き込む必要があるので、コンセプトを理解してもらうために30秒で理解できるように言葉を砕いてみました。どうでしょう。

SRE(Site Reliability Engineering)とは?

  • 信頼性を可視化してコントロールする
  • 手作業でやっていた運用業務を自動化する

信頼性とは?

  • システムがユーザーの期待した役割を果たすことができる能力
    • エラーにならない
    • レスポンスが速い
    • 使いたいときに使える
    • 問題が起きた時の対処が適切

SLI(Service Level Indicator)とは?

  • 信頼性を測るための指標
  • クリティカルユーザージャーニーを元に決定する

SLO(Service Level Objective)とは?

  • 計測したSLIに対する目標値
  • ユーザーが不満を抱かずにサービスを利用できる状態の数値

SLOを設定する理由

  • 改善が果たしたユーザーへの影響を把握するため
  • 改善に対してどれくらい投資すればよいかを判断できる

エラーバジェットとは?

  • SLOがあることで導かれる許容できるエラーの量
  • バジェットの消費量からさまざまな判断を行う

ユーザージャーニーとは?

  • サービスを利用する大半のユーザーが行う一連の操作
  • その中で1番重要なものをクリティカルユーザージャーニー(CUJ)に設定する