先日のサーバトラブルですが、なんとか対応しました。
サクサク動いていたのが安心していたけど、実はまったく解決していなかったorz
朝のうちは良いけど、だんだんレスポンスが悪くなる
気になっているのでサーバの状態がモニターしながら居残り仕事
見ていると、確かにだんだんレスポンスが悪くなっている…
夜にたばこを吸いに出たら、生産ラインが止まった連絡が(涙
すぐに戻ってサーバの様子をみようとしたら
開いていたリモートディスクトップが切断されとる(;´Д`)
入りなおしてみると、ディスクの負荷が異常に高い状態で以前と同じ現象。
やむを得ず、各種サービスを止めてしばらく放置してみた。こちら、ご覧ください…
走っているProcessが無いのにI/Oの0Byte/secだけど
ディスクの負荷だけは100%( ;∀;)
もう、勘弁してください…
※障害がでていてパフォーマンスモニターがまともに動けていない可能性大。
そして、今回落ちたサーバのサービスを再起動したら、これまた凄い時間がかかる。
同じ物理マシンに入っているゲストOSは、A~Cの3台
今回、Aでトラブルっていたのだけど、見るとBとCも負荷が100%で貼り付いてる。
A~Cのすべてをサービスをいったん止めて、しばらくモニター
それでも、100%状態で貼り付いている…そして衝撃の瞬間を目撃する
BとCのディスク負荷が同時に0%になった
これどうなっちゃっているのよ。・゚・(ノД`)・゚・。
こんなことあるのぉ???
普通に考えるとストレージ問題で3台とも同じディスクアレイにつながっている
でも、ディスクアレイ上では特にエラーとか警告は無し。
色々操作してみたら、読み出しは特に問題ないみたい。
だけど、書き込みに異常に時間がかかることが判明…
ライトキャッシュが効いている分は早い。
実書込みが間に合ってないように見える。
物理マシンと接続されているディスクアレイの動きがおかしい可能性が高い。
経路なのかディスクアレイ上のコントローラーなのかわからんけど(´・ω・`)
こうなってくると、私だけではどうしようも無い。
翌日の生産に間に合うようになんとか起動させるしかない
夜中にIT部門の担当を呼び出して対応。
結局、A~Cをシャットダウンした後に物理マシンの再起動で動くようになる。
23時まで会社にいて、帰宅後1時までかかったよorz
そして、根本解決になっていないので、対策を考えないといけない