コンピュータがトラブルに見舞われたときに考えるべき健全なこと | A Day In The Boy's Life

A Day In The Boy's Life

とあるエンジニアのとある1日のつぶやき。

SEが声を大きくして国民に伝えるべきたった一つのこと。 @ 304 Not Modified


激しく同意。

コンピュータは壊れる、そしてコンピュータは不完全でもあります。

コンピュータを構成する部品の一つを取ってみても壊れる事は多々ありますし(初期導入時やある一定の経過年数を経つと。使用期間と故障率の関係は故障率曲線 (バスタブ曲線)でよく表現されます)、コンピュータを作っているのが不完全な人間である以上、コンピュータもまた不完全です。


テレビや冷蔵庫、携帯電話など身の回りにはたくさんのコンピュータ(内蔵のもの)があり、それらは日常の中で壊れたという経験をしているはずなのに、ことPCやネット上で提供されるシステムに関しては完全であるように受け止められている傾向があるように感じます。

ただ、それは裏でSEさんたちが「また壊れたよ」といってせこせこと聞き好感などを行い対応しているからでして、決して長期にわたって故障無く動いているわけではありません。


システムを運用する上でやけに稼働率という言葉にこだわる人がいたりしますが、例えば24h/365のシステムにおいて、稼働率を99%に設定すると年間約88時間停止となり、99.9%とすると年間で約9時間、99.99%にすると年間約53分の停止しか認められません。

H/W故障となると、一般的には機器交換になりますので業者に連絡して、部品を交換してもらうなどの対応になり、これだけ半日近くの時間がとられます。

となると、1台のサーバーでまかなえる稼働率は99.9%以上を設定する事はかなり難しい事がわかります。

(しかもこの場合、年に1回の機器故障しか許されない)


私は情報システム部門でヘルプデスクやシステム運用、構築など色々な業務に携わっていますが面白いのは、コンピュータに関して自身の不利益をこうむった場合でも、その人の反応が違う事。

PCなど普段から自身が管理して使用しているモノがトラブルに見舞われた場合、(もちろん、色々な人がいる ことは確かですが)むしろ自分が悪いのではないかと平謝りする人がいるのに対して、私のようなシステム部門が運用・管理するシステムがトラブルになると「何故動かないんだ!」と怒る人が多い事。

どちらもその元になって動いているコンピュータと言う基盤は同じなのに。


先ほど電化製品などが普段から壊れる事を身をもって体験しているのに、と書きましたがまさしくそれと同じで、会社から支給され、自分で管理している会社用のパソコンが壊れたら自分のせい、自分の管理が及ばないコンピュータが壊れたらそれを管理する人のせい、というように責任の所在をはっきりさせたがるのでしょうかね。


私もアメリカ人はどうなのかと言う事をはっきりしませんが、向こうの人たちってトラブルに出くわす事も一つの運(不運)と考えているような傾向があるのかなぁと。

日本のように、原因はなんなんだと言う事をあまりはっきり考えようとしないように感じられる部分があります。


冷蔵庫が壊れたら「なんてついてないんだ」と思う人は多いと思います。

そんなトラブルを避けるために、冷蔵庫を冗長化しておくほとんどいません。

何故か?そんな何時起こるかトラブルに備えるコストをかけることができないからです。

じゃあどうするか?

最初に戻ってそういうトラブルに出くわした時には「運がなかったなぁ」と思う事の方がずっと安上がりになるわけです。



「運」で片付けると随分といい加減に聞こえますが、逆に運で片付けられるぐらいのシステム管理の方が健全であるかなぁと。

100回アクセスして、1回サービスが落ちてたぐらいなら、運が悪かったで片付けられるでしょう。

100回アクセスして、10回もサービスが落ちてる現象に遭遇するのは、それは運が悪いわけではありません。

ずさんな管理から必然でそうなっているだけです。

であれば、100回に1回ぐらい落ちる事を許容する管理、またはそういうものだと思って利用する事の方が健全であることではないでしょうか。