batchiです。

EC2インスタンスに(主にAWS側の)問題が生じた時に、
自動で復旧を行ってくれるAutoRecovery。

ぜひ実際に動くところを見てみたいと思い、
テストをする方法はないかを調べてみました。

ない

ないようでした。
軽くネットで調べてみるだけでも
「無理」感がひしひしと伝わってきます。

とはいえ実際に手を動かさないのもダメかと思い、
無理やり考えつく方法を試してみました。

Cloudwatchアラームの設定をいじる

AutoRecoveryは、
“StatusCheckFailed_System”メトリックスに紐づくアクションとして設定します。

基本的に検出される値は「0」なので、
例えばしきい値を「< 1」のように設定すれば、
アラームの状態を遷移させることは容易です。

律儀に送ってくれるメール

実際に試してみたところ、
「状態が遷移した」
「紐づくアクションが実行された」
という履歴は確認できますが、
実際に動くところは見れません。

そして契約アカウントに以下のようなメールが届きます。

件名:[Auto Recovery] Amazon EC2 instance recovery: No action taken

Dear Amazon EC2 Customer,

An Auto Recovery action was triggered for your EC2 instance ID: i-xxxxxxx in the ap-northeast-1 region, but no action was taken.

EC2 Auto Recovery re-verifies the system health status of an instance before proceeding.  During this verification step your instance reported healthy and Auto Recovery was therefore not initiated.

Common reasons for this include:
1.  A system health check failure was very short-lived and recovered by the time Auto Recovery was initiated
2.  A user performed a manual override of the CloudWatch alarm by setting the alarm state to ALARM

If you have any questions or concerns, you can contact the AWS Support Team on the community forums and via AWS Premium Support at: http://aws.amazon.com/support

Sincerely,
Amazon Web Services

This message was produced and distributed by Amazon Web Services, Inc., 410 Terry Avenue North, Seattle, Washington 98109-5210

僕の乏しい英語力によると、
以下のようなことが書かれているようです。

「インスタンスのシステムステータスはヘルシーなようなので、
何のアクションも起こしませんでした。」
「考えられる主な理由としては、1.短時間でヘルシーになったか、」

「2.ユーザーが手動でアラーム状態に遷移させたから。」
ばれてました。

ということで、やはり機能テストは無理で、
実際にAWS側の物理的な問題が生じるのを期待するしかないようです。

(実際にAutoRecoveryが発動しても恐らく透過的であり、
ユーザーから確認できるかは疑問ですが)

おまけ:statistic[Minimum] が唯一サポートされている、とは?

アラームの設定についてドキュメントを参照する中で、
気になる記述を見つけました。
Amazon CloudWatch アラームへの復旧アクションの追加

メトリックス”StatusCheckFailed_System”について
「統計」では「最小」を選択するよう記述してあり、
それについて下記のように書かれています。

Note
これは現在サポートされている唯一の統計情報です。

サポートされているとは何を指すのか?
サポートされていないstatisticを選択するとどうなるのか?

ということがわからなかったので、
サポートに問い合わせてみました。

回答:ユーザーの意図しない結果を避けるため

例えば「統計」で「最大」を選択していると、
設定変更や障害などで一時的にメトリックスが上がった場合でも、
アラームが生成されることになる。

そういったユーザーが意図していない結果を避けるために、
ドキュメントには「サポートされ」た統計情報だと記載しているとのことでした。

感覚的には「推奨」といったレベルでしょうか。
なるほど。

こちらからは以上です。

TOP