外部サービスと内部サービスの障害に対する考え方の違い | A Day In The Boy's Life

A Day In The Boy's Life

とあるエンジニアのとある1日のつぶやき。

アマゾンのストレージサービス「S3」に障害--信頼性をめぐりWeb 2.0界に波紋


この記事を見るとアマゾンのWebサービスが約4時間ほどダウンしたとあります。

1日でこの4時間と言う数字を見ると、確かに長いと感じます。

1日の1/6でサービスが利用できなかったわけですから。

AmazonのWebサービスを基盤としている他のサービス業者は、その間の機会損失が発生しているわけですから怒りもよくわかるところです。


Amazonのように自社のサービス基盤をその他に解放して、それを元に2次的なサービスを展開する企業(個人)もここ数年でかなり増えてきていますから、そういった業者(個人)にとってはAmazonは生命線になるわけです。

例えば、我々にとって必要不可欠な電機や水道が1日のうちで4時間も止まるとかなり困ってしまいます。

寝ている間に止まっているのであれば、そうも困らないかもしれませんが、人間世界と違いインターネットは24h起きっぱなしの世界です。

常に需要がある状態なので何時止まろうが困るわけです。


こういったインターネット向けの外部サービスと、社内システムのような内部サービスの障害に対する考え方はいったいどのように違うのでしょうか。

少しまとめてみました。

なお、内部サービスと言うのは企業の顔であるオフィシャルサイトなどではなく、会計システムや営業支援システムなど基幹系のシステムを指しています。


項目 外部サービス 内部サービス 備考
利用規模 インターネット全体 全拠点 内部サービスは全拠点といってもグローバルな企業であれば、世界中にあったりもしますね。
稼動 24h/365 規定値 規定値とは運用コストの中で決められた基準値の事です。このシステムは99.9%の稼働率で運用しますよと言うような基準です。
影響範囲 システム利用者/インターネット利用者 システム利用者/全従業員 影響が出る対象者はどちらもシステム利用者ですが、両者においては分母・分子共に桁違いです。
代替策

なし

あり

内部サービスであれば、システムがトラぶっていても何らかの代替策がでてきます。一旦はローカルのPC上で作業するとか、他の業務に取り組むとか。ただ、外部サービスであればそもそもの目的がそのシステムの利用であるので、それに変わる代替策というのはありません。
復旧レベル 何が何でも最新! なるべく最新・・・ 内部サービスがなるべく最新というのは、例え完全復旧できなかったとしても、やり直しがきく場合が多いからです。その企業内で利用するデータは、その企業内に存在しますから。ただ、外部サービスにおいてはそれはユーザー主導になるため、例えそれが可能であっても運営側は口が裂けてもいえません。(そのはず)
復旧時間

0分

(絶対に落とすな!)

規定値

(なるべく早くね・・・)

内部サービスの場合、コストとの兼ね合いが強いのでこれもある程度、運用の中で規定値を決めています。外部サービスの場合、専用の保守体制を整備しておきますが、内部サービスの場合はそうもいかないため、ベンダーに依存した復旧時間がかかったりする場合もあります。
障害対応コスト サービスが生み出す利益から、復旧レベルと復旧時間を満たすのにかかるコストを差し引いた中で投資できる金額 情報システム部門の予算次第 悲しいかな運用している情報システム部門の予算の中で障害対応に避けるコストと言うのは微々たるものです。経営からすれば情報システムにかかるコストと言うのは締め付けたいと考えていますが、障害対応のコストと言うのは、インフラや保守体制に跳ね返りますので、情報システム部門はその板ばさみの中で予算を調整する必要が出てきます。



やはり規模の違いからか内部向けのサービスにおいては、障害対応の範囲や体制というのは外部向けのものと比べずっと小さくなります。

ただ、それを利用している側の目線は外部向けも内部向けも同じです。

結局のところ痛い視線を感じることになるのはそれを運用している人たちとなるわけですから・・・。