システムトラブルに対する対応ってコツがある。 | ロマンチックなSEがIT業界を変える。

ロマンチックなSEがIT業界を変える。

アッツワークス株式会社 代表取締役 犬旅コンサルタントのブログです。
IT業界に入って25年。
システムエンジニア(SE)としての日々の活動記録。
キーワード は「右肩上がり」。
読者登録、大歓迎です。

いくつかのブログで似たようなトラブルが発生しています。更新が重い、更新した結果が正しく反映されない、バックアップデータが消えてしまった、で、トラブル対応のためにハードウェア増設したら、失敗して予定時間より大幅に時間がかかった。

こういうトラブル対応におけるトラブルが発生すると、相当な損失が発生します。例えば、SEの稼働自体も増えますし、商用システムであれば社長に謝るとか損害賠償を支払うとか、コンシューマー向けシステムだとイメージが一気に下がってユーザ数が減るとか。

そういう観点から、システムの安定運用というのは、非常に難しいことなのですが、一方でできて当たり前の世界になっています。そのためにサーバやディスク、ネットワーク機器等を二重化したり、万一のときのトラブル対応マニュアルを整備したり、ノウハウ要員を増強したりします。

それでもトラブルが起きるのは何故か。
(1)試験項目の観点が間違えている、網羅性がない
(2)現場SEまで対応方針が浸透しておらず、いざというときに対応できない
(3)そもそも一か八かでやってしまっている。。。
当初想定よりユーザが増えて性能設計値をオーバしている、などなど、いろいろなケースが考えられます。

いずれにしても、livedoorBlogの記事更新が遅いのには対応してほしい。何回もやり直すと、結果として最終的に更新できた際にいくつも同じ記事が投稿されることになってしまいます。

もぐらたたき的なトラブル対応では、いつまでたっても安定稼働は望めない、ということが言いたかったのです。