気象庁の天気図を作るスパコンの全システムがダウンした。

原因は、空調のダウンによる温度上昇によるものらしい。

省庁の重要なサービスであるから、フォルトトレラント(Fault Tolerant)な設計がなされていると思われたが、お粗末である。

フォルトトレラントとは、SPOF(Single Point Of Feiler/シングル・ポイント・オブ・フェイラー)が存在しないということである。

簡単にいえば、一つの部分やユニットの障害では、システム全体、サービス全体に影響がないということである。

簡単な方法は、二重化である。

例えば、HDDの二重化や冗長化、つまりミラーリングやRAIDといったものは、データが壊れては困るような重要なシステムに利用される。

例えば、CPU(ここでいうCPUは本体という意)の二重化、つまりクラスタリングといったものは、あるサービスが24時間365日常時起動していないとならないような重要なシステムに利用される。

二重化も、近距離なものと遠距離なものがある。

今回の気象庁のシステムは、単一の建屋という超近距離な中でのトラブルである。

超近距離であるということは、管理面は楽であるが、完全なフォルトトレラントにはなりにくい。

では、どうすれば良いかというと、今回のサービスであれば、東京と大阪といった最低でもある程度離れた距離の2拠点に同一システムを構築し、高速ネットワークでつなぐということになるだろう。

それくらいお金をかけてもよいと思うんだが、どうなんでしょうね。