システム運用後のトラブルはリスクを誇張させる | A Day In The Boy's Life

A Day In The Boy's Life

とあるエンジニアのとある1日のつぶやき。

システムの構築が終わり、無事にリリースされても運用のフェーズの中では様々な問題が起こります。

それはプロジェクトの設計で、運用の中で起こるであろう色々なリスクに備え、対策を取っていたとしてもゼロにはなりません。

想定外という言葉で済ませればよいわけではありませんが、全てを予測することはできませんし、1人の作業のミスが大きな問題を簡単に引き起こしてしまったりもします。

 

そういったリスクに備えた対策を講じていくことに対して異論はないのですが、何でもかんでもリスクを取り除くことに注力したり、偏向しすぎているのではないかと感じることもあります。

 

 

全てのリスクに備えよ

 

システム構築の段階では、様々なリスクに備えます。

ハードウェアの障害であったり、データの保全性を担保するためにバックアップを取るでしょうし、オペレーター向けにマニュアルが用意されたりします。

ただ、それらもプロジェクトの予算については限度があるため、幾つか削られるかもしれません。

そうした時にそれに伴うリスクを示していたとして、了解を得たにもかかわらず、そのリスクが顕在化した場合はその再発防止への強い指示が出てきます。

 

この時に「じゃあ、最初からやらせろよ」とか「あの時はそれで良いといったのに」という話ではなくて、「本当にまた次回に備えて対策を打つ必要があるんですか?」という事を冷静に議論したいと感じることがあるわけです。

ちゃんと議論すべきなのは、「運用前のリスク対策では問題ない」という判断をしたにもかかわらず、運用後に問題が出ると「そのリスクへの対策は必要だ」という当初の判断を覆す決定が何故行われるのかというところです。

 

確かに問題の大きさによっては、絶対に対応しないと会社の信用に関わるというものもあるでしょう。

ただ、そこまで大きな問題ではないにしろ、何らかのリスクがそれに伴って発生するケースであれば、全てのリスクに備えよと言う、トラブル前後の温度差に疑問を持つことがしばしばあります。

この辺の温度差を一番感じたのは昨年の3.11だというエンジニアも多いかもしれません。

 

震災直後は、DR(Disaster Recovery)というのはホットな話題になりましたが、1年も経たないうちにのど元を過ぎてしまった感があります。

大震災に見舞われた際にBCP(Business Continuity Plan:事業継続計画)という観点で、必要最低限なシステムでも会社の基幹となるものに関しては何らかのDR対策が取られたかもしれませんが、売り上げの中核を担うシステムでもコスト面からその対象から外れたり、「しばらくは起きないだろうから、もう少し時間をかけて対応しよう」とか「前回どうにかなったから大丈夫でしょう」というように、時間が経つとともにその対策プロジェクトはそのまま収束してしまったというケースも多いのではないでしょうか。

 

震災直後は、全てのリスクに備えた方が良いという考えを持つ人が多かったのが、平常運転に戻れば何も言わなくなってしまうというのは、振り返ってみるとあのときの判断基準はどこから来たのかと、振り回された徒労から猜疑心が出てくるわけです。

 

トラブル時は盲目

 

トラブルが起きた状況下では、人は焦燥感から冷静さを失いやすいですから、対応への判断基準があやふやになったり、考えが変わるということはわからなくも無いのですが、起きたトラブルと影響ばかりを考えるのではなく、そのリスク自体を分析する必要があって、それによって本当にそのコストに見合う対策を取るのかということを議論しないといけないんじゃないかなと思うわけです。

また、リスク自体の分析をしてそれを分散させたり、あえて保有しておくというのも選択肢としてあるのに、全てリスクは潰せという判断に持ち込まれるのは、現場にいたら結構疑問なときもあります。

 

その乖離した答えに行き着く理由は、トラブルが想定外のものであったり、想定していたよりも大きな問題となってしまったというものであったり、リスク対策への見積もりがあまかったり、サービスレベルの問題であったり、単に責任者が上から煩く言われたがためにリスクを課題評価しすぎているというものであったりするかもしれません。

まぁ、大体この辺の理由は数珠繋ぎになってたりして絡んでるものなんですが・・・。

 

ですから、前もってリスク基準をしっかりと定義しておくのと、定期的な見直しというのが必要になってくるでしょう。

リスクを共有しておくことで有事の際に所定の対応ができるでしょうし、冷静な判断もできます。

ある意味、「これは想定内だからデータロスは致し方ないこと」という判断ができるかもしれません。

それがよいかどうかはきちんとリスク管理の中で議論すべきことですし、予算や体制の中で限界が決められてくることではあります。

また、あえて対応しないということも時には必要かもしれません。

 

先に書いたように震災の直後はかなり息巻いていたものが、数ヶ月で一気にトーンダウンすることがあるように、有事と平時ではその人の判断にも大きな乖離がでてきますので意図的に時間をかけてみて様子をみてみるのもよいかもしれません。

最初は「投資を惜しまない」といっていたものが、急に「お金が無いから対応が難しい」という決定に変わったりしますからね。

 

トラブルは毎日起きるわけではないですが、否応無くその繰り返しにより運用は常にリスクへの対策をすることに大きな時間をとられていきます。

運用の現場でも、常に次のステップへ今のシステムをブラッシュアップしていくという目標があるでしょうから、システムトラブルへの対策ばかりを講じていたら進むに進めない状況になります。

これも一つのリスクにはなってきます。

そのリスクの影響具合や対策を打つことの効果というものをしっかりと判断して、「何でもかんでも対応しろ」というのではなく、今そのリスク対策を行うか否かを決めていく必要があるのではないでしょうか。