障害対策に「チェックリスト作成」を出してくるベンダー問題の本質と本当に効く再発防止策 | eightthousandのブログ

eightthousandのブログ

https://www.tiktok.com/@usoppu8?_t=ZS-8wBd1cpZVIO&_r=1

💥 IT現場あるある
障害対策に「チェックリスト作成」を
出してくるベンダー問題の本質と
本当に効く再発防止策【3層アプローチ】
2026年最新版 / システム運用・PM・ITコンサル向け

📋 目次

① 結論:問題の本質はどこにある?② なぜベンダーはチェックリストを出すか
③ インシデント管理と問題管理の違い④ 再発防止の3層アプローチ
⑤ 効果測定のKPI指標⑥ ベンダーへの建設的な問い返し方
⑦ まとめ
① 結論:チェックリストが悪いんじゃなく「使い方」が問題

最初に正直に言う。チェックリスト自体は悪くない。

航空業界・医療・原子力発電所では、チェックリストが文字通り命を救っている。問題は「チェックリストの中身」と「それだけで終わってしまう運用」にある。

本質的な問題:ベンダーが出してくるチェックリストの多くが「根本原因と無関係」なこと

「作業前に確認する」チェックリストが増えても、なぜ障害が起きる構造になっているかは何も変わらない。構造を直さずに確認項目だけ増やすのは、穴の開いたバケツを拭き続けるようなもの。

✅ この記事でわかること

・インシデント管理と問題管理(ITIL)の違い
・再発防止を「根本を直す/早く気づく/被害を減らす」3層で整理する方法
・効果を数値で追うためのKPI指標(MTTR・MTTF・再発率)
・ベンダーとの関係を壊さず本質的な議論に持ち込む問い返し方

② なぜベンダーはチェックリストを出してくるのか

批判だけじゃ不公平なので、ベンダー側の構造も整理する。

理由① 実装コストがほぼゼロ
ドキュメント作成だけで完結。システム改修・ツール導入と違って追加費用が発生しない。
理由② 承認が通りやすい
コストが低く、否定もしにくい。「対策を講じました」という報告として成立しやすい。
理由③ 責任の所在を曖昧にできる
「チェックリストに従わなかった担当者が悪い」という構図にできる。
理由④ 発注側が要求水準を示していない
「改善策を出せ」だけでは、コストが低い策が選ばれるのは合理的な行動。要求する側の責任でもある。

📌 つまり、チェックリストが出てくる背景にはベンダーの問題だけでなく「要求の質が低い」側の問題も含まれている。

③ 【ITIL】インシデント管理と問題管理は別物

ITILというITサービス管理のフレームワークでは、障害への対応を明確に2つに分けている。ここがわかっていないと、永遠にチェックリストを増やし続けることになる。

🚒 インシデント管理

目的:サービスを早急に回復させる

対象:今起きている障害への対処

例:サーバー再起動、フェイルオーバー、暫定回避策

チェックリストはここ止まり

🔧 問題管理

目的:根本原因を特定・恒久対処する

対象:障害が起きる構造そのもの

例:RCA実施、設計変更、自動化

本当の再発防止はここ

チェックリストはインシデント管理のツールとして有効だが、問題管理には踏み込めていない。ベンダーが提出する改善策が「チェックリスト作成」だけであれば、それはインシデント管理レベルで止まっており、問題管理に相当するアクションが欠落しているということになる。

④ 再発防止の「3層アプローチ」と優先順位

再発防止策は3つの層に分けて考えることで整理しやすくなる。またコストが低い順に着手するのが現実的。

🔴 Layer 1:根本原因を直す(着手優先度:高)コスト:低〜中 効果:大

優先① ポストモーテム(障害振り返り)の仕組み化

Googleが推進するBlameless Postmortem(ノーブレーム振り返り)。「誰が悪い」ではなく「何が悪かった」を追求する。コストゼロで今日から始められる。

記録する内容:障害概要・タイムライン・根本原因・アクションアイテム(担当者・期限付き)

優先② 根本原因分析(RCA / 5Why分析)の実施

「なぜ?」を5回繰り返して真因まで掘り下げる。トヨタ生産方式発祥の手法。

DBに接続できなかった
→ なぜ? コネクションプールが枯渇した
→ なぜ? バッチ処理が異常終了してもコネクションを解放しなかった
→ なぜ? 例外処理の実装が不完全だった
→ 根本原因:レビュー工程でその観点が欠落していた

優先③ 変更管理プロセスの見直し

障害の多くは変更のタイミングで発生する。リリース前の影響範囲調査の義務化・変更申請フォーマットの統一・リリース後の一定時間監視など。

🟡 Layer 2:早く気づく(着手優先度:中)コスト:中 効果:中〜大

優先④ 自動検知・アラートの整備

人間がチェックリストを確認するより、システムが自動で検知する方が確実で速い。

例:メモリ使用率80%超でSlack通知 / 異常終了プロセスの即時検知 / レスポンスタイム閾値超過の検知

優先⑤ 監視・モニタリング基盤の強化

Datadog・Zabbix・Prometheus等の監視ツール、ログ集約(Elasticsearch+Kibana)、APMの活用。「障害が起きてから気づく」を「兆候で気づく」に変える。

🟢 Layer 3:被害を最小化する(着手優先度:低)コスト:高 効果:限定的

優先⑥ 冗長化・フェイルセーフの実装

これは「再発防止」ではなく「被害軽減策」に分類される。障害そのものを防ぐわけではなく、起きたときの影響を減らす設計。重要ではあるが、Layer 1・2を先に整備してから取り組むべき。

例:サービス多重化 / 自動フェイルオーバー / サーキットブレーカーパターン / バックアップ・リストアの定期テスト

💡 3層の考え方まとめ

Layer 1根本原因を直すポストモーテム・RCA・変更管理
Layer 2早く気づく監視強化・自動検知
Layer 3被害を最小化する冗長化・フェイルセーフ
⑤ 効果測定のKPI指標:数字で改善を追う

「改善しました」で終わらせない。数値で効果を追えなければ改善とは言えない。以下がIT運用の標準的なKPI指標。

指標名意味改善の方向
MTTR平均復旧時間
(Mean Time To Repair)
短いほど良い。Layer 2で改善
MTTF平均故障間隔
(Mean Time To Failure)
長いほど良い。Layer 1で改善
再発率同種障害の繰り返し発生率低いほど良い。RCAの効果を測定
障害件数推移月次・四半期の発生件数減少トレンドを確認

ベンダーに改善策を提出させる際は、「この改善策によって6ヶ月後にMTTRが何%改善するか目標値を示せ」というように、KPIと目標値をセットで要求するのが有効。

⑥ 関係を壊さずに本質的な議論へ持ち込む問い返し方

ベンダーとは長期的に付き合う関係がある。「詰める」のではなく、建設的に議論の質を上げる問い方が重要。

💬 NGな問い方 → ✅ 建設的な問い方
❌「チェックリストだけですか?」✅「根本原因の分析結果も共有してもらえますか?問題管理として恒久対策も検討したいのですが」
❌「本当に再発しないんですか?」✅「効果をMTTRや再発率で追いたいので、6ヶ月後の目標値も提示してもらえますか?」
❌「こんな対策では意味がない」✅「自動検知の仕組みも並行して整備できると、より確実性が上がりそうです。見積もりをもらえますか?」

📌 ポイントは「批判」ではなく「次のアクションへの誘導」。相手が動きやすい問い方にすることで、関係を維持しながら対策の質を上げられる。

⑦ まとめ

チェックリストは「確認補助ツール」として有効だが、それはインシデント管理レベルの対応であり、本当の再発防止にはITILでいう問題管理の視点が必要。

📌 この記事のポイント

① チェックリストが悪いのではなく「根本原因と無関係な中身」が問題
② インシデント管理(即時対応)と問題管理(恒久対策)は別物
③ 再発防止は「根本を直す/早く気づく/被害を最小化する」の3層で考える
④ 効果はMTTR・MTTF・再発率などKPIで数値追跡する
⑤ ベンダーへの問い返しは「詰める」より「次のアクションへ誘導する」形にする

同じ障害が繰り返される現場の問題は、改善策の質だけでなく、改善策を問い質す側の質にもある。ベンダーに適切な要求水準を示せているかを、まず自分側から見直してみてほしい。

この記事はITIL・SRE・システム運用に関する一般的な知見をまとめたものです。個別の障害対応や契約判断については専門家へのご相談をおすすめします。