YAHOOメールトラブル。ぶっちゃけアレですなぁ(感慨) | テツになる勇気。

テツになる勇気。

テツってのはね、乗ってりゃいいってモンじゃない。撮ってりゃイイってもんでもない。スジって一人でニヤけていたら通報寸前w。
そう、テツってのは、語ってナンボなのよ(マジかっ

ヤフーのメールサービスが9/30から10/4まで、4日に渡って止まってました。

私のメールもまったく見れない状態に。まあ普段から見てないからいいんですけどね。



で、4日間もシステム停止した原因がなんなのか、ヤフーの説明では原因を


「システムの冗長性やデータの保全性を維持できないレベルのハードウエア障害」


とだけ言ってますね。



いやあモットモらしい、でもナニ書いてあるんだかイミフな説明文。「維持できないレベル」とあるからこら相当深刻なんだなぁと察したりしてる方もいるでしょうね。ただ、IT業界に努める人なら大体察しがついちゃいます。「なんだよその程度のことでこの大騒ぎかよ(怒)」みたいな笑。



原因を知るためにヤフーの説明をかみ砕いていくと、まず冗長性。これはナニか壊れても、他のがあるから大丈夫、というもの。テレビ壊れたけどスマホでワンセグ見られるから大丈夫とか、そういうのを「冗長性がある」と言いますね。この場合、スマホがなければ冗長性は当然「ありません」



次に保全性。普通使わない用語で、ITギョーカイ内の人達もこの意味をちゃんと理解している人がどこまでいるのかちとビミョーな気もしますが、これは「もし壊れちまったら復旧させる努力をすぐに始めまっせ」というもの。110番で警察が駆けつけるという保全性の仕組みを用意することで、強盗に入られても極力早く強盗おっぱらって普通の生活に戻せるようにするもんですよ、という感じですか。なんかあったら気付いて対処、が保全性です。



いいですね、冗長性と保全性。これらが「維持できない」とはつまり、平たく言ってしまうと、

「予備が壊れてたけど、それに9/30までまったく気づかんかった(アッチャー)」と言ってるんですよw



そう考えるといろいろつじつまが合ってくるんですよ。




まず、壊れた日。なぜ「9/30」に壊れたのか?


パソコンのハードウェアは、基本壊れます。所詮消耗品です。特に沢山の人が使うサーバー製品なんてのは、もうパッカパッカと壊れます。だから、いつ壊れてもすぐに交換できるよう、予備の部品が用意されています。

壊れたらサクっと交換すればいいんです。お手軽ですね。普段はどこでもそうやって乗りきっています。

でも今回の場合、「保全性が維持できていなかった」ことで、壊れた部品に気付かなかった。気付かないまま時間が立ち、1つだけでなく沢山の部品が壊れてきた。でも気付かないw


月末に気付いたのは、多分月末時点でハードウェアの点検でもしたんでしょう。そしたらなぜか、保全性を保つ「装置」がなんのアラートもあげてないのに赤ランプがついている。なんじゃこりゃー!!みたいな・・・



次に、復旧できたのが4日後。


予備の部品て、沢山用意しているわけじゃないんですね、アタリマエです。沢山あったって使われるか分からないんです、カネと場所の無駄です。だから、「ある程度」用意しておくわけです。

どれくらい用意するか。壊れた量+αだけ用意しておけばいいですね。そうですよね。だからそうしてたわけですね。


しかし!


壊れたことに気づかない。そのまま部品は沢山壊れ出す。気付いたときには備蓄している補修部品だけでは直せない位、多くの部品がこわれてしまってた。こらあかん、もう顔マッサオww


4日という復旧期間は、多分故障部品の調達時間を含んでいたわけですね。サーバー製品なんてのは、当然ヤマダに行ってポイント付きでいつでも買える、ということはありません。だいたい部品が日本にあるかすら分かりません。同じ部品がないか、もう全世界をまたにかけて探したでしょうw

復旧の目途に言及し始めたのは10/2の10時半。地球の裏側から航空便で取り寄せると、だいたいそんなもんですか。おそらく取り寄せたのは1つだけではないでしょうから、いろんなところから「かき集めた」んでしょうねぇ。部品がそろったのが10/2の朝の線は濃厚です。



最後に、逐一報告された報告文の様子。


状況報告に具体的な内容はほとんど書かれていませんでしたが、データはロストしてなさそうということは読み取れます。データが消えていたら相当大問題ですから、経過報告でも報告されていたでしょう。そうではなかったのでそう解釈できます。一方で、「システムが安定した後に予期せぬ事態が発生しないよう」というくだりが、「ヘタこくともっとヤヴァイことになる」と読み取れます。この場合の「ヤヴァイこと」とはひとつしかないですね、データの消失です。


冗長部品とはつまり、ハードディスクだったんでしょう。予備が壊れただけだから、データは残っている。だけど本番が壊れたら今度は本当にデータ消失してしまうので、予備がちゃんと復旧するまでは本番を止めていた、という理屈だと思います。

本来、本番が止まっても継続して動作できるよう予備を用意しているハズなんですが、実際それはできなかったわけですね。まあ1ビット欠けただけで全部のデータがロスしてしまうRAIDのストライピングの特性が分かっていれば、それもやむなしといったところですか。



こうしてみるとこの4日間、復旧にあたった人達は以外にヒマだったんじゃないかと思います。

部品(ハードディスク)が届くのを待って、届いたらデータを自動で書き込むだけです。ほとんと待ちぼうけだったんでしょう。

まあ、復旧してよかったよかった。