みずほ銀行で、ATMの障害が発生しました。
システム担当者、並びに、企画部門の方々の心中を察すると、自分の事のように心が痛みます。
なぜかというと、私自身も、同じ立場に立たされたことが2度ほどあるからです。(さすがに3度目はありませんでしたが)
なぜ、みずほ銀行ばかり、3回も大きな障害が発生したのでしょうか。せっかく、最新のシステムに乗り換えたと言うのに、どうして障害が発生したのでしょうか。
原因は、データのバックアップによる高負荷状態にあったと報じられていますが、古いシステムでは発生することは理解できますが、最新のシステムでオンラインに影響を与えるような障害が発生するとは信じがたいです。
システム的な原因は分かりませんが、言えることは、「組織文化に問題があるのではないか」という仮説です。
どうしても、大きな組織になると、本流(企画・営業畑)と支流(業務・システム畑)の間に溝が生まれやすいものです。
私の経験では、本流・支流の仲が悪いと、支流で発生した事故を本流に知らせず、内輪で処理しようとします。その風潮は今も昔も変わらないのではないでしょうか。
実際、小さなシステムのバグ(不具合)は、システム部門内で片づけることも可能です。しかし、その小さな問題が、実は、大きな問題に発展することは沢山あります。特に、巨大システムに於いては致命的な結果になるケースもあるのです。
だから、問題点を発見した場合、全てを記録して、報告すべきであり、本流・支流の垣根を超えて、その問題の解決にあたらねばなりません。そうする事により、小さな不具合に見えていても、本当は、業務に多大な影響を与えるという不幸を回避できるのです。
今回のみずほ銀行の場合、何かの理由でバックアップを行う必要があり、その処理を行う事を、システム部門が独断で行ったのではないかと思います。
仮に、業務部門と協議をしていれば、バックアップを行う時間帯は適切か?本当にバックアップする必要があるのか?もっと他の方法、例えば問題を手作業で解決できないか?など、多角的に検討がなされ、このようなシステム障害を未然に防ぐことが出来たのかもしれません。
実は、私がシステム部門に初めて配属された当時は、主流・支流の関係は良くありませんでした。その結果、大小の障害が日常的に発生し、障害が発生する事が常態化していました。また、組織は障害について寛容でもありました。
しかし、その後、みずほ銀行と同様にオンライン障害という大事故が発生してしまいました。
その、事故処理の後、新しい主流の責任者は、主流・支流の垣根を取り払い、「人は過ちを犯す」ことを正面から認め、「過ちを犯すことは仕方が無いが、その情報を共有して二度と同じ過ちを犯さないようにする」「過ちを起こした者を処罰するのではなく、みんなで協力して解決することが大切だ」という企業文化に変えてくれました。
そのおかげで、その後、システム障害は激減し、その後2度の新システム移行も大きな障害を起こさずに完了しました。
今回のみずほ銀行の場合は、度重なる新システム移行の延期や、それに伴う予算超過など、支流側が委縮していた可能性を感じています。
「人は過ちを犯すもの」「それを防ぐのも、また、人である」ということを、組織文化に取り入れなければ、同じ過ちを繰り返すことになると思います。
そして、今回の障害で、自らの命を絶つような悲惨なことが起きないことを、心から願っています。