システムはなぜダウンするのか 知っておきたいシステム障害、信頼性の基礎知識 | A Day In The Boy's Life

A Day In The Boy's Life

とあるエンジニアのとある1日のつぶやき。

システムはなぜダウンするのか 知っておきたいシステム障害、信頼性の基礎知識/大和田 尚孝
¥2,520
Amazon.co.jp

この本では、システムダウンの原因を実際のシステムダウンの事例を含め、その原因の体系的にまとめ上げています。

各章ごとに、システムテストや負荷テストへの対策や不具合の事例、OSやアプリケーション、ハードウェアレイヤでの障害や一般的な対策、運用オペレータによる入力ミスなどによる障害の発生事例などが描かれています。


ただ、障害対策へ技術的な観点からのどのような構成をとるべきとか、どのような対策ツールがあるのかなどについて、深い視点では切り込んでいないので、そういった技術的観点を希望するなら、「[24時間365日] サーバ/インフラを支える技術 」の方がよいかもしれません。


新人エンジニアにはシステム運用と障害対策のいろはを、中堅エンジニアにはシステム障害対策に対する幅広い知識を、プロジェクトマネージャにはシステム構築・運用の網羅的なリスク管理への対策、として有効になるのではないでしょうか。

エンジニアではなくとも、IT担当としてシステムの維持・管理をしなくてはならない立場であれば、ここに書かれているような知識や事例と言うのは一度目を通しておいた方がよいと感じます。


ある程度システム開発や運用の現場で経験をつんだエンジニアであれば、ここに書かれた障害事例などは自分の経験と照らし合わせても、思い当たる節が出てくるのではないかと思います。

私も読んでいて、実際にそうなったら笑い事ではありませんけど、これはあの時のあのトラブルに当てはまるな、って当時の思い出と重なったりしました。

そして、システムトラブルと言うものは、自分の現場特有のものではなく、どこのシステム運用者も似たようなトラブルで悩まされており、その対策と日々格闘しているのだなとも。


こういった失敗の事例という物からの方が学べることが多いので、そのシステムトラブルの原因を体系的にまとめ上げているのは、貴重な情報源になるのではないでしょうか。



システムはなぜダウンするのか 目次


第1章 システムが止まった・・・
1.1 停止 = ダウンは誤解
1.2 ダウンは原因から4種類に分けられる

第2章 きちんとテストしたはずなのに・・・
2.1 突然に目を覚ます20世紀のバグ
2.2 忘れたころにやってくる「日付問題」
2.3 データベースのデッドロックが連発

第3章 アプリケーションだけではない・・・
3.1 停止を検地できない
3.2 組み合わせを変えたら動かない
3.3 メモリーをつかんだまま解放しない

第4章 アクセス殺到に耐え切れず・・・
4.1 ハードウェアの性能を活かしきれない
4.2 メモリー、CPUが足りない
4.3 通信データの増加がダウンをまねく
4.4 データベースが満杯に
4.5 夜が明けてもバッチ処理が終らない

第5章 気付かなかったは許されない・・・
5.1 つい見逃すパラメータ変更
5.2 システム環境の変更ミス
5.3 バッチ・ファイルの適用忘れ
5.4 カレンダーの設定ミス

第6章 その「うっかり」が致命傷・・・
6.1 運用コマンドを間違える
6.2 データの移行・入力ミス
6.3 待機系への切り替えに失敗
6.4 混乱が「2次災害」を生み被害拡大

第7章 まさか、こんなことが起こるとは・・・
7.1 サーバーが壊れた
7.2 通信ネットワークが不通に
7.3 コンピュータ、電気なければただの箱
7.4 震災でデータセンターが破壊・焼失

第8章 障害対応は時間との闘い・・・
8.1 原因究明よりも復旧を優先