お久しぶりです。
最近はトラブルなどもあり忙殺されていました。
某案件で使用しているCiscoの
Firewall Services Module
がある日突然、自身を通過するPacketを
何も通さなくなってしまったのです。
現場で切り分け作業を行っていたところ、FWSMを経由しないように設定してみると通信は復旧し、
FWSMを経由するように設定を戻すと、何も通信できません。
この結果からFWSMが何らかの理由でPacketをDropしているのは明らかです。しかし、FWSMの
コンソールにアクセスしても何の問題もなく操作できます。
それにFWSM自身のIPアドレスに対してはPingに応答します。また、FWSMから他のIPにPingを
打っても問題なく成功します。動作が不安定な印象はありませんでした。
冗長構成をとっていましたが、Secondary機に切り替わることもなくPrimary機のFWSMは安定した
状態です。
HWの障害なのかSWの障害なのかを切り分けるため、Primary機をrebootさせてみることに。
reboot後、Primary機をActiveに切り戻した後もPacketをDropし続けるようだったらHWの障害だろうと
思っていました。
Primary機をrebootさせるとfailoverがおこり、Secondary機がActiveとして動作しはじめます。
念のためPCからExPingを使ってFWSMを越えたセグメントにあるMSFCに対してPingを打ち続けて
いました。Secondary機がActiveとして動作しはじめるとPingが成功し始めます。
Secondary機で上手くいくということはPrimary側のFWSMに何か問題があるんだなと、思っていた
その時!不可解な現象が起こりました。
それまで成功していたPingが一斉に失敗していきます。Secondary機でも同じような現象が再現
したのです。しばらくPingを打ちっぱなしにしていましたが、復旧しそうな気配はありません。
な、なんなんだこの現象は。。。
Primary機の障害がSecondary機に伝染したような現象。。。まさか、インフルエンザ(笑)
というのは冗談ですが、そのときは全く理解できませんでした。
reboot し終わったPrimary機にActiveを切り戻します。(FWSMのOSはPIX系のものですが、PIX系の
Firewallでは、HSRPのようにPriorityが高い方に自動的に切り替わってくれるPreemptのような動作
をしません)
Primary機がActiveになると、またPingは成功し始めますが、しばらくすると全く通らなくなります。
Reboot してもダメでしたが、Secondary機も同様の動作をしているのでHW障害の可能性は低そうです。
SWの不具合も考えましたが、それにしては現象の再現が早すぎるかなという気がしました。それに
Triggerもよく分かりませんし。その後もCat65本体のrebootをしてみたり、何度かFWSMのrebootを
してみましたが現象は100%再現しました。それも起動後すぐに。
FWSMを別のCat65に差しても同じように100%再現します。
一体何が起こっているんだろう。
これだけreboot してダメなら設定に問題があるのかと思い始めました。しかし、導入前のテストでは
問題なく動作していますし、導入から約半年ほど正常に動作していました。
しかし、現実には現象はすぐに再現しますし、それも100%です。HW障害の可能性がない今はSW障害
の可能性が残されますが、そのTriggerが分かりませんでした。Pingの通信しか行っていないのに
現象が起こってしまう。テストの時は嫌というほどPingを打っていたので、これがTriggerになるとは
考えにくかったのです。
やはり設定に問題があるのではと思い始めたとき、テストの時と唯一違う設定がありました。
それはSyslogの設定でした。。。
-Part 2につづく。