システムエンジニアを悩ますネタのようで実際に起きるトラブル | A Day In The Boy's Life

A Day In The Boy's Life

とあるエンジニアのとある1日のつぶやき。

システム担当者なら誰しも巻き込まれるシステムトラブルですが、なんでこんなことにと悩ますような怪現象に巻き込まれることがしばしばあったりします。

例えばこんな・・・。



システム入れ替え前に現システムのトラブルが頻発する


数年ごとにシステムをリプレイすることがあったりしますけど、その直前に現在稼働しているシステムにトラブルが頻発することがあります。
エンジニア側から見れば、「もう少しでリプレイスするんだからそれまで我慢してくれよ」と思うわけですけど、「私なんてもう必要ないんでしょ!」とばりに今のシステムが機嫌を損ねてくるわけです。


で、こういう場合にエンジニアとしてはあんまり本気で対策を取りたくないわけです。
もうすぐ新しい環境に入れ替えるわけですから捨てるシステムにそれほど多くの労力を費やしたくないわけですし、そもそもリプレイスの作業のスケジュールが差し迫っている中、そちらに割く時間も多くは取れないわけです。
暫定的な対策で機嫌をごまかしつつこの日まで何とか持ってくれと祈るような気持ちで見守るもやもやした日々がリリース日まで続いたりします。

これはある程度システムやハードの寿命というのが間が悪く訪れる現象だとは思うのですが。



担当者不在の時に限ってトラブる


自分がそのシステムに一番詳しい場合、よりによって休んだ時に大きなトラブルが発生し、同僚とかからの電話に出る羽目になりせっかくの休みが台無しになることがよくあります。
また、他の担当者の場合でもトラブルが発生した時に事前の変更作業が共有されていなかったり、いつもは静かなのにその日に限ってやたらと問い合わせが入って詳細な仕様がわからずに多くの時間を調査に割かれることになったりします。

まぁ、この辺は保守・運用の問題でもあるわけですけど、多くのシステムを抱えていたりするとあの人が一番詳しいというのは出てきたりするわけで、そういう部分をついたトラブルや問い合わせや調査の依頼などが来て頭を悩ませることがあったりします。

休んでるだけならまだ連絡のつけようがあるのでいいんですけど、リリース前にエンジニアが辞めるなんてこともあったりして、その場合はなお悲惨な状況になるわけです。



何もしていないのにトラブルが直る


トラブルが発生して様々な調査にかなりの時間を費やしたにもかかわらず、原因が特定できずに途方に暮れている中で、特にシステムに変更を加えたわけでもないのに突然問題が解決するということがあったりします。
結局何をしたのが原因か、どこに問題が起きたのかわからず担当者はみな狐につままれた気持ちになるわけですが、調査も行き詰まりを見せると「タイミングの問題かね」なんてわけのわからない言葉でトラブルを闇に葬り去ろうとしたりします。

まぁ、逆のパターンの「何もしていないのにトラブる」というのは大体何かをしている場合で、まずいことを起こしたユーザーはたいてい「何もしていない」ととぼけられたりするわけですけど、ログとか追っていると明らかに何かしている痕跡がでてくるわけで、そういった無駄な調査に多くの時間を取られて疲労感いっぱいになったりもするわけです。



トラブルは連続して起きる


一つのシステムトラブルでいっぱいいっぱいになっている最中、別のトラブルに巻き込まれるといこともよくあり、なんで今日に限ってこれが起きるのかという気持ちになったりします。

こういうのはシステム間で全く無関係のように見えて実は関連性があるものであったりもするのですが、連続して全く別物のハードウェアが相次いでお亡くなりになるということもあったりして、凄惨を極める一日になったりすることがあります。

まぁ、炎上しているプロジェクトの場合で課題が次々と発生するのと同じことではあるんですけど、連続してトラブルが起きると担当が不足することもあり、関係ないシステムトラブルの対応に巻き込まれたりしてエンジニアが相次いで倒れる状況に陥ったり。



帰る頃にトラブる


さて、そろそろ帰るかと思ってたらシステムトラブルに関するアラートメールが発砲されてきたり、ユーザーから電話がかかってきたりすることもよくあることです。

24h/365dなサービスが多くなる中でシステムトラブルの時間を選ぶことなんてもちろんできないわけですけど、対応する側としては日中帯に起きてくれれば多くの時間が取れたのにという気分にもなったりします。

これがハードウェアの問題になってくると保守業者へ連絡して対応を待ったり、遠隔地に機材がある場合はそこへの移動を考えなくてはならなくなり、終電のことが頭をよぎったりしてどこまでを今日中にやるかという時間との別の戦いも始まります。

トラブルが起きたのがよりによって平日日中帯のサポートしか受けれない保守契約だったりして途方に暮れることもしばしばあります。



まとめ


まぁ、要は間が悪いときに限ってトラブルが起きるというものなんですけど、中の人にとっては結構なんでこのタイミングでその問題が起きるの?って気持ちになるわけです。

どこまでリスクヘッジをしておくかということでもあるわけですけど、可能性としては低いであろうことが当然のように起きたりします。

まぁ、そのリスクヘッジにかけるコストも当然捻出できなかったりして余計に頭を悩ませることになったりするんですけどね。