先週の金曜日12:15、イミフな障害が発生。
「あるサーバーに監視系のネットワークだけが接続出来なくなる」
そして現在も障害継続中。。。
OPmanagerのICMPポーリングアラートメール通報で認知。
ただお客様NWからの業務系通信は問題なく接続可能。
今まで全く知らなかったシステムのネットワーク構成図を広げ調査開始。
クラウド側のサーバは仮想NICが2枚あり、業務系と監視系で分かれている。
【構成】
オンプレ物理サーバA(物理NIC1枚)→L2SW→L2SW→社内クラウドSW→社内クラウド仮想サーバZ(仮想NIC2枚)
・サーバAにログイン
ping打つと「到達出来ない」「タイムアウト」が交互に表示され繋がらない。
tracert打つと1hop目から繋がらない。
・サーバZにログイン
ping打つと「タイムアウト」のみが表示され繋がらない。
tracert打つと1hop目が業務系NICに向かってしまっている
('ω')?
謎1つ目。
何故1hop目が業務系?
これが昔からなのかは分からない。
謎2つ目。
繋がらない物理サーバAに載っている仮想サーバB→クラウド仮想サーバZへは問題無くつながる。
いや、物理から繋がらず、何故仮想からは繋がる?
これがイミフな最大の要因。
サーバZでroute printルーティングテーブル表示させると、監視系へのルートはちゃんと監視系NICになっている。
ただarp -aを打つと、サーバAのarp解決が出来ていない。これが1hop目に業務系に向いている要因。
手動でサーバAへのarpテーブル追加とルーティングテーブル追加してみてもNG。
物理サーバ~L2SWまでの間で物理portを色々と変えてみるがNG。
現象的にどこかでIPフィルタ(ACL)が掛かっているような動きなのだが、
間に挟まっているL2SWも特段port securityやSTP・Vlan設定しているわけでもなく、
普通にhubとしての役割をしているだけ。
クラウド側の担当者へ連絡してみても、設定変更などの作業はしていないとの事。
障害範囲が明確ではない以上、これ以上調査してもらえるかは不明。
う~ん。これ以上うちでやれることは無さそう((+_+))
マジでわけ分からん('Д')
影響は監視が出来ないだけで、
仮想サーバBに載っているZabbixでサーバZへのping監視とweb監視を追加してなんとか回避。
ん~、どうしよ。。