みなさん、こんばんは。小寺です。
AWS Systems ManagerのIncident Managerがオンコールのスケジュールをサポートするようになりました。
このアップデートにより、クリティカルな問題が検出されたときはより迅速に対応ができます。
https://aws.amazon.com/about-aws/whats-new/2023/03/aws-systems-manager-on-call-schedules/
AWS Systems Manager Incident Manager とは
AWS Systems Manager Incident Managerとは、検出されたイベントをインシデントとして管理し、インシデントの復旧や解決までの時系列をトレースしたり事後分析したりすることが出来ます。
Incident Manager は、Amazon CloudWatch CloudWatch アラームやメトリクスAWS CloudTrail、AWS Systems Manager、AWS Chatbot、などのAWSサービスと連携して、アプリケーションを再稼働させるための迅速なインシデント対応を可能にします。
インシデントマネージャーの機能について、主に以下のものがあります。
・対応計画
CloudWatch アラームまたは Amazon EventBridge イベントをトリガーにインシデントの対応計画を作成して自動化します。
・Runbook オートメーション
Systems Manager オートメーションでランブックを定義して、重要な対応を自動化して対応することができます。
・エンゲージメントとエスカレーション
一意のインシデントごとに正しい人員を自動的に接続します。さまざまなお問い合わせ方法を介して応答者をエスカレートし、インシデント中の対応状況の可視化と確実な応答者のアサインができるようにします。
・アクティブコラボレーション
インシデント応答者は、AWS Chatbot クライアントのサービスとの連携により、インシデント対応をより能動的に行えます
・インシデントのトレース
up-to-date インシデント中の情報については、インシデントの詳細を確認します。発生したインシデントについては、ランブックに沿ってフォローアップ項目を作成し、修正します。
アップデート内容
アップデート前までは、登録してある連絡先がオンコールなのか?オンコールでないのか管理は出来なかったので、エンゲージメント設定する連絡先やタイミングによってはインシデントの対応スピードに影響が出る場合がありました。
本日のアップデートでオンコールスケジュールという機能が導入されました。
やってみた
早速オンコール機能について、試してみました。
(1)Incident Managerをまずは「準備」します。仕組から「セットアップ」をクリックします。
(2)「利用規約」に同意し「次へ」をクリックします。
(3)「レプリケーションセット」を定義します。
(4)「連絡先」をクリックします。
(5)コンタクト情報を入力して「作成」をクリックします。
(6)コンタクト先も無事に作成できたところで、Incident Managerのメニューから「オンコールスケジュール」を選びます。
こちらが新機能です。
(7)「オンコールスケジュール」をクリックします。
スケジュール詳細とローテーションが表示されます。まず、ローテーションの登録をしてみます。
(8)次にコンタクト先の登録をします。
検証用のSunnyしか登録していませんが、通常複数登録して、コンタクト順を設定します。
(9)カレンダーからローテーションを確認することができます。
まとめ
Systems Manager Incident Managerからオンコールスケジュールの機能が追加になりました。
自動化するのに便利ですよね。次回は実際のインシデントを試してみたいと思います。