新聞を見たら8月に起きたみずほ銀行のシステムトラブルの原因がハードウェアの点検漏れとの記事がありました。

都銀なのに、みずほ銀行のシステムダウンは珍しくなくあり、発生しても『またみずほか』というほどです。国防、生命、財産をカバーするシステムは十分な予算をつけて幾重にもリカバリできる構成にするのが普通ですが、どうしてこうも同じ銀行で発生するのでしょう。このブログでも何回か取り上げ来ましたが、システムトラブルが続発しているのにCIOにシステムに素人の人事畑出身者を充てるという人選を続けてきた危機感のなさが指摘されたこともありましたが、何百人もいるシステム部員たちは、技術的、業務的にシステムを理解しているのか疑問に思うのは私だけではないでしょう。システムベンダに丸投げしている節もありますが、システム部員としての自尊心はないのか?給与に見合う仕事をしているのか自問自答したことがあるのか?恥ずかしくないのか不思議に思います。それはともかく、記事に紹介された不具合を起こした機器のバックアップを複数持ちながら、切り替えがうまくいかなかったことにつき、経験に基づき評価します。

 

優れた機能をもったシステムでもダウンしたら終わりです。航空管制システムや新幹線の制御システムのダウンは生死に関わり、原子炉制御のシステムダウンは、生死のみならず、広範囲に亘って住めなくなる地域が出ることにより、狭い国土を更に狭くしてしまうことになりかねないのは、福島原発の事故を見れば明らかです。システムに頼っている度合いが強ければ強いほど、ダウンした際のダメージは大きくなります。問題なく稼働し続けるには、何に気をつければいいのでしょう。システムが止まってしまう要因は大きく分けて5つあります。①電源断、②ハードウェア障害、③ソフトウェア障害、④アプリケーション不具合、⑤操作ミスですが、みずほ銀行の件はハードウェア障害です。

コンピュータを構成する部品の中で故障が発生するのは、主にハードディスク(HDD)です。これは常に高速で回転し、一般的に振動に弱く、正常に動くための温湿度条件も設定されています。HDDには、OSはじめ、アプリケーションやデータが記録されているので、故障するとシステムは運転を続けられなくなります。以前に比べ、耐故障性が高めていますが、それでも0にはなりません。万が一に備え、バックアップをとっておかなければなりませんが、バックアップ環境は、できるだけ離れた場所に置く必要があります。それは、近くに置いておくと、地震、津波、火災、落雷などで、せっかくのバックアップ環境が本番環境と一緒に(同時に)使えなくなってしまうからです。耐故障性を高めるために、バックアップと共に、一般的にRAID(レイド)と呼ばれる冗長性の高いHDD構成をとります。FT(Fault tolerant)と呼ばれ、CPUはじめ、全ての部品、機構を二重化して飛躍的に耐故障性を高めたサーバを使う場合もあり、国防・生命・財産を扱うシステムには必須です。今回のみずほ銀行はサーバが不具合を起こしたとのことですが、一定の判定ルールで稼働中のサーバーが不具合を起こしたことを検知したら、更新中のファイルも考慮しながら、スタンバイしている別のサーバーに自動的に切り替わるはずです(手動では間に合わない)。しかし、せっかく複数用意していた待機系のサーバが肝心の時に動かなかった・・・


《気をつけること》
ハードウェア障害対策で見逃しがちなことがあります。それは、予備機(待機系)の扱いです。障害時に予備機がないと業務が止まってしまうクリティカルなハードウェアの場合には、予め全く同じ機種を用意し、万が一に備えます。リアルタイム処理をしているシステムの場合には、予備機ではなく、常に切り替わって処理を引き継げるようにスタンバイしている機器構成にしているはずです。RAID構成になっているサーバなので可用性は高いし、万が一の場合にもスタンバイしているサーバがあるので安心・・・気の緩みが生じます。みずほ銀行は、気の緩みを引き締めるために稼働中のサーバに障害が発生した際の訓練をやっていたかが問われます。机上のシミュレーションではなく、実際に停めてみて、瞬時に切り替わり、支障なく処理を続けられるかを確認していれば、今回のように機器構成的にはシステムの可用性を高めるような配慮がしてあっても、いざその時になったら動かないという今回のようなことはなかったでしょう。

 

サーバに限らず、最近のハードウェアは信頼性が高く、なかなか故障しません。そのため、用意している予備機の出番がなく、出番がないまま長い間置いておく場合が発生します。その結果どのようなことが起きるかを実際にラベルプリンタで経験しました。予備機のラベルプリンタの可動(槢動)部分(ローラ部分)がくっついて動かないという事態です。
リライトカードリーダー ライター TCP310IIZUN-JP ISO準拠(3 トラック) 1年保証 USB/RS232C接続 【PET(薄手)カード用】 スター精密
これはスペアタイヤを積んでいても、空気が少なくなっていて使えなかったとか、懐中電灯はあったが電池が切れていたなどと同じです。予備機のまましまっておくのではなく、定期的に交換して使うことを勧めます。運用方法としては、本番機と予備機、本番系と待機系を交互に使うやり方も検討することを勧めます。


※質問はosugisama@gmail.comにどうぞ!
※本ブログの無断転載、内容の流用を禁じます。