AWS EC2障害時の対応について

先日、毎日夜間だけ停止しているEC2を起動するときにステータスチェックが1/2で起動しないという事象がありました。

ステータスチェックが1/2となるときは、AWSの基盤障害ではなくOS側の問題となります。

対応としては、インスタンスのSTOP/STARTを実施してみましたが復旧せず。

仕方がないので、AMIから戻しました。

ただ、その時に起動しないインスタンスはまだ削除していない状態でしたので、新しく作ったインスタンスのプライベートIPアドレスは違うIPアドレスをアサインしました。

どういうことかというと、EC2インスタンスにアタッチされているプライマリENIはデタッチすることができないので、起動しないインスタンスを削除してからじゃないと同じIPアドレスで設定することができません。

もし同じIPアドレスを使おうとすると、もうすでに利用されていますみたいなメッセージが表示されてアサインできないようになっています。

Elastic Network Interface（ENI）

通信経路を確認していなかったのですが、どうやらプライベートIPアドレスをRoute53に登録していたようで、EC2は起動しましたが、FQDNでの通信ができなくなりました。

Route53の登録情報を更新しましたが、こういう場合は、どうすべきだったのかがわからないですね。

いきなりEC2をTerminateしてプライベートIPアドレスを開放して、新しい作ったインスタンスにアサインするのか、それともプライベートIPアドレスは常に変わると想定して、都度Route53のレコード情報を更新するのかとか、もしくはコストをかけられるのであれば、サーバを冗長化するとかですね。

何が最適な方法かは構成や障害時のインパクトなどによると思いますので、どれが正しいとかはないですね。

まだまだ覚えることがたくさんあります。

ぼぶろぐ