Thinking about SRE -5ページ目

Thinking about SRE -5ページ目

ホームピグアメブロ

芸能人ブログ人気ブログ

30秒でわかるSRE

SREを始めるにあたって、ビジネスサイドのメンバーやサーバーサイド以外のメンバーも巻き込む必要があるので、コンセプトを理解してもらうために30秒で理解できるように言葉を砕いてみました。どうでしょう。

SRE(Site Reliability Engineering)とは？

信頼性を可視化してコントロールする
手作業でやっていた運用業務を自動化する

信頼性とは？

システムがユーザーの期待した役割を果たすことができる能力
- エラーにならない
- レスポンスが速い
- 使いたいときに使える
- 問題が起きた時の対処が適切

SLI(Service Level Indicator)とは？

信頼性を測るための指標
クリティカルユーザージャーニーを元に決定する

SLO(Service Level Objective)とは？

計測したSLIに対する目標値
ユーザーが不満を抱かずにサービスを利用できる状態の数値

SLOを設定する理由

改善が果たしたユーザーへの影響を把握するため
改善に対してどれくらい投資すればよいかを判断できる

エラーバジェットとは？

SLOがあることで導かれる許容できるエラーの量
バジェットの消費量からさまざまな判断を行う

ユーザージャーニーとは？

サービスを利用する大半のユーザーが行う一連の操作
その中で1番重要なものをクリティカルユーザージャーニー（CUJ）に設定する