前回の続きです。


2/20(火)に障害が出て、2/21(水)の朝に

HPサポートセンター電話をして対応してもらった。

12時にエンジニアが来て、ログ等を見てもらい


「ASRの障害」


という結論に至った。詳しい原因までは分からないが、
システムボードを交換すると直ると言われた。

けれど、原因特定まで至らなかったので、
要因となりうるパーツ(CPU、メモリ)も交換することで手を打ちました。


しかし、交換してもエラーが消えず、エンジニアが焦りだした。
新しく持ってきたシステムボードが怪しいということで、
システムボードを新しく手配することになった。


私としては、新しく持ってきた物が壊れているという確立はかなり低いと
思い、他のパーツに原因があるのではと思ったのですが。。。


新しいシステムーボードが届き交換するが依然エラーが消えず起動しない。
こちらとしてはこれ以上サービスをとめることができないので、

同じ型の他のサーバーとHDDを交換し、暫定的な対応としました。

ただ、障害が発生したサーバーは解決していないので、
引き続き対応をしてもらうことに。
さらに、1名のエンジニアを派遣してもらうことに。


先ほど交換していない電源モジュールを交換してみるという結論に至り、
交換するとサーバーが起動した。

しかし、HDDを挿入しもう一度起動したが、ディスクを認識しない。。。

RAIDカードを抜き差ししてもらい、一応起動したがどうも怪しい。

けれど、これ以上対応してもらうことがない為、とりあえず終了。

無事これで解決と言いたいところだが、実は次の日に同様のエラーが発生し
サーバー停止。


HPサポートセンターに電話し即時対応して欲しいと連絡した。この時、時間は9時。
エンジニアが来たのが12時過ぎ。すでにサーバーが停止してから3時間が経過。
早速対応してもらったのだが、原因不明とのこと。


取り合えずシステムボードが怪しいので交換するとのこと。
システムボードを交換し起動したが、システムテストのHDDリードテストで
エラーが発生した。


HDDの内容が怪しいので交換してリストアして欲しいとのこと。憤慨である!
今まで正常に動作していて、負荷も少ないサーバーだったのでHDDの内容が
壊れる可能性はほぼゼロに近い。そんなことをする時間もないのでもちろん却下。
もし、壊れたとしたならば昨日の作業としか考えられない。


一応、HDD以外すべてを交換し作業終了ということに。ただ、何かあった場合は
時間外でも即時対応してもらうという約束を取り付けた。


現在は正常に動作しているが、少し不安である。
また、今回対応したエンジニアの会社は二度と使わないと思った。