先週の金曜日12:15、イミフな障害が発生。

「あるサーバーに監視系のネットワークだけが接続出来なくなる」

そして現在も障害継続中。。。

 

OPmanagerのICMPポーリングアラートメール通報で認知。

ただお客様NWからの業務系通信は問題なく接続可能。

今まで全く知らなかったシステムのネットワーク構成図を広げ調査開始。

クラウド側のサーバは仮想NICが2枚あり、業務系と監視系で分かれている。

 

【構成】

オンプレ物理サーバA(物理NIC1枚)→L2SW→L2SW→社内クラウドSW→社内クラウド仮想サーバZ(仮想NIC2枚)

 

・サーバAにログイン

 ping打つと「到達出来ない」「タイムアウト」が交互に表示され繋がらない。

 tracert打つと1hop目から繋がらない。

・サーバZにログイン

 ping打つと「タイムアウト」のみが表示され繋がらない。

 tracert打つと1hop目が業務系NICに向かってしまっている


('ω')?

謎1つ目。

何故1hop目が業務系?

これが昔からなのかは分からない。

 

謎2つ目。

繋がらない物理サーバAに載っている仮想サーバB→クラウド仮想サーバZへは問題無くつながる。

いや、物理から繋がらず、何故仮想からは繋がる?

これがイミフな最大の要因。

 

サーバZでroute printルーティングテーブル表示させると、監視系へのルートはちゃんと監視系NICになっている。

ただarp -aを打つと、サーバAのarp解決が出来ていない。これが1hop目に業務系に向いている要因。

手動でサーバAへのarpテーブル追加とルーティングテーブル追加してみてもNG。

物理サーバ~L2SWまでの間で物理portを色々と変えてみるがNG。

 

現象的にどこかでIPフィルタ(ACL)が掛かっているような動きなのだが、

間に挟まっているL2SWも特段port securityやSTP・Vlan設定しているわけでもなく、

普通にhubとしての役割をしているだけ。

 

クラウド側の担当者へ連絡してみても、設定変更などの作業はしていないとの事。

障害範囲が明確ではない以上、これ以上調査してもらえるかは不明。

う~ん。これ以上うちでやれることは無さそう((+_+))

マジでわけ分からん('Д')

 

影響は監視が出来ないだけで、

仮想サーバBに載っているZabbixでサーバZへのping監視とweb監視を追加してなんとか回避。

ん~、どうしよ。。