優先① ポストモーテム(障害振り返り)の仕組み化 Googleが推進するBlameless Postmortem(ノーブレーム振り返り)。「誰が悪い」ではなく「何が悪かった」を追求する。コストゼロで今日から始められる。 記録する内容:障害概要・タイムライン・根本原因・アクションアイテム(担当者・期限付き) 優先② 根本原因分析(RCA / 5Why分析)の実施 「なぜ?」を5回繰り返して真因まで掘り下げる。トヨタ生産方式発祥の手法。 | DBに接続できなかった | | → なぜ? コネクションプールが枯渇した | | → なぜ? バッチ処理が異常終了してもコネクションを解放しなかった | | → なぜ? 例外処理の実装が不完全だった | | → 根本原因:レビュー工程でその観点が欠落していた |
優先③ 変更管理プロセスの見直し 障害の多くは変更のタイミングで発生する。リリース前の影響範囲調査の義務化・変更申請フォーマットの統一・リリース後の一定時間監視など。 |