こんにちは、佐野(マナティ)です!
AWS re:Inventにて、AWS DevOps Agentのプレビュー版がリリースされました!
https://aws.amazon.com/jp/about-aws/whats-new/2025/12/devops-agent-preview-frontier-agent-operational-excellence/
今回はAWS DevOps Agentの機能を実際に試しましたので、その実体験を共有したいと思います!
■ 1. 概要・背景
● AWS DevOps Agentとは
AWS DevOps Agentは、2025年12月2日にAWSが発表した3つの「Frontier Agent」のうちの1つであり、インシデント対応の自動化とシステム信頼性向上を目的とした運用支援ツールとなっています。
- 数時間~数日レベルの長時間タスクを、自律的に継続して実行できる
- オペレーターが付きっきりで画面を見る必要がなく、調査が完了したらSlackなどで通知を受け取れる
というのが大きな特徴となっています。
● Frontier Agentの位置づけ
Frontier Agentは、「大規模にスケール可能で、自律的に動く新世代のAIエージェント」というコンセプトのエージェント群です。DevOps Agentはその中でも「運用・インシデント対応」に特化したエージェントで、Amazon Bedrock AgentCoreとClaudeの技術を基盤に、長時間タスクや複雑な意思決定をこなします。
参照: https://aws.amazon.com/ai/frontier-agents/
■ 2. 主要機能
● インシデント対応の自動化
- 複数の監視・運用ツールからデータを自動で相関分析
- 根本原因の特定と影響を受けているコンポーネントの洗い出し
- 緩和策や次にやるべきアクションの提案
→ 結果として、MTTR(平均復旧時間)の短縮を狙えるようになっている。
● インテリジェントなアプリケーション・トポロジー
- システムコンポーネントとその相互作用を自動でマッピング
- デプロイ履歴や構成変更履歴を追跡
- リソース間の依存関係を学習し、「どこを触ると、どこに影響するか」を理解したうえで調査を実行する
● プロアクティブな改善提案
- 過去のインシデントやアラート履歴を分析
- 観測性(ログ/メトリクス/トレース)、インフラ構成、デプロイパイプラインなどに対する改善提案
- 「どの設定をどのように変えると良いか」といった、具体的な実装ガイドも提示
■ 3. ユースケース
● リアクティブ対応(今起きている障害への対応)
- 深夜のアラートに対する一次対応を自動化
- ピーク時のインシデント調査を高速化
- 複数の監視ツールやログ基盤にまたがるデータを、横断的に相関分析
● プロアクティブ改善(事前対策)
- マルチAZ構成になっていないサービスの検出
- 監視が足りていないコンポーネントの洗い出し
- テストカバレッジの改善に向けた提案(今後さらに拡張予定のようです。)
● 開発者支援
- Kiroなどのエージェント開発ツール向けに、実装仕様(Spec)のたたきを生成
- 変更の影響範囲や運用リスクを踏まえた実装ガイドの提示
- 「直したいけど、どこから手を付けるか分からない」という場面をサポート
■ 4. 技術アーキテクチャ・統合
● 対応する監視ツール
以下のような監視スタックと連携可能となっています。
- Amazon CloudWatch
- Datadog
- Dynatrace
- New Relic
- Splunk
- AWS X-Ray(トレース分析)→オープンテレメトリー
● CI/CDツール統合
- GitHub Actions
- GitLab CI/CD
などと連携し、デプロイ履歴を自動で取得・追跡する。
● チケット管理システム
- ServiceNow(ネイティブサポート)
- PagerDuty(Webhook経由)
これらをトリガーに、自動インシデント対応フローを起動可能となっている。
● Model Context Protocol (MCP) サポート
- カスタムツールの統合が可能
- Grafana、Prometheusなどのオープンソースツールも統合可能
- 組織独自のツールやプラットフォームをDevOps Agentから直接叩ける
● コミュニケーション
- Slack統合(インシデント専用チャネルなど)
- 調査状況のリアルタイム更新
- ステークホルダーへの自動通知を設定可能
参照:
https://aws.amazon.com/blogs/aws/aws-devops-agent-helps-you-accelerate-incident-response-and-improve-system-reliability-preview/
■ 5. セットアップ・使い方
詳細は https://docs.aws.amazon.com/devopsagent/latest/userguide/getting-started-creating-an-agent-space.html を参考にしてください。(※ 「9. 実際に試してみた」でも実際に行ったステップを書いてます。)
● 初期セットアップ(3ステップ)
1.Agent Spaceの作成
- アプリケーション単位・チーム単位・組織単位など、好きな粒度で作成可能
- 必要なIAMロールの自動作成
- 調査対象のスコープやリソースアクセス範囲を定義する
2.オペレーターアクセスの設定
- Webコンソール(Webアプリ)を有効化
- AWS IAM Identity Centerと連携
- チームメンバーごとのアクセス権限を管理
3.調査の開始
- 手動トリガー:Web UIから開始(Webアプリから)
- 自動トリガー:アラート受信をきっかけに開始
- 代表的な事前テンプレート:
- 最新のアラームを調査
- 高CPU使用率を調査
- エラー率スパイクを調査
● 調査プロセス
- 対象となるアプリケーションスタックの特定
- メトリクス・ログ・コード変更・トレースなど情報を相関分析
- エラーパターンや異常な挙動の識別
- 調査結果のサマリーを自動生成
- 緩和策・恒久対策などの改善提案を提示
● インタラクティブ機能
- チャットUIでDevOps Agentに質問可能
- 例:「どのログを見てこの結論になったの?」などの質問が可能
- 追加コンテキストを渡すことで、調査の方向性を調整できる
- 調査結果を添付したAWS Supportケースを、ワンクリックで作成
■ 6. 料金・制限事項
プレビュー期間中は無料で利用可能となっています。しかし、月あたりのエージェントタスク時間に上限があるためその点には注意が必要です。(具体的な月あたりのエージェントタスク時間の制限値は明記されていないようです。)また、正式リリース後の料金モデルは現時点(2025/12/03時点)では未公開となっています。
● リージョン・可用性
リージョン:バージニア北部(us-east-1)のみ ※ エージェント自体はus-east-1で実行
監視対象:
- 任意のリージョン
- 複数AWSアカウント
- マルチクラウド/ハイブリッド環境も対象
■ 7. セキュリティ・権限管理
● IAM統合
- Agent Space作成時にIAMロールを自動生成
- リソースごとのアクセス権限を細かく制御可能
- 一時的な認証情報を使ってアクセスするため、長期キーを埋め込む必要なし(セキュリティベストプラクティスに準拠)
● 認証・認可
- AWS IAM Identity Centerとの連携
- MCP経由の統合ではOAuth 2.0/2.1ベースの認証
- ユーザー/グループの一元管理できる
■ 8. 他のAWSサービスとの違い
● Amazon DevOps Guru との比較
DevOps Guruは異常検知とインサイト生成に特化しているのに対し、DevOps Agentは自律的な調査、原因分析、実装レベルのガイダンス提供、長時間タスクの実行という形で差別化されています。「通知+インサイト」で終わらず、その先の調査とアクション部分をエージェントが持つのがDevOps Agentというイメージを持つと良いと思います。
■ 9. 実際に試してみた
今回は以下の条件で試しました。
- AWSアカウント(バージニア北部リージョンが使用できるもの)
- 監視対象となる簡単なリソース(今回はLambda関数を使用)
- 10~15分程度の時間(調査時間)
※ どのような処理をするのか確認したいため、エラー内容は手動で今回投げます。
①AWSコンソールで「DevOps Agent」と検索します。
②画面右上の「Begin setup」を選択すると、以下画面に遷移します。赤枠を埋めてみます。今回はIAMロールを自動作成してもらいます。
③後でブラウザからアクセスできるようにWeb appを有効化します。その後は「create」で作成します。
④この時点でDevOps Agentが自動的にAWSリソースをスキャンし、トポロジーを構築し始めます。
⑤今回は意図的にエラーを出すLambda関数を作成してみました。
--------------------------------------------------------------------
import json
import random
def lambda_handler(event, context):
print("Lambda function started")
# 50%の確率でエラーを発生させる
if random.random() < 0.5:
print("Error condition triggered")
raise Exception("Random test error for DevOps Agent")
print("Function completed successfully")
return {
'statusCode': 200,
'body': json.dumps('Success!')
}
--------------------------------------------------------------------
以下がエラーになります。
これで準備が整いました。実際にDevOps Agentを動かしてみましょう。
⑥「DevOps Agent」のWeb appタブに戻ります。IAM Identity Centerとの接続が必要みたいなのでロールを作成し、「Connect」を押下します。
下記画面に遷移しますので「Operator access」を押下してください。
⑦以下画面に遷移します。「Start Investigation」を押下し、調査する内容と何で気づいたかを入力します。
※ 日本語にはまだ対応していないみたいです。
⑧「Start Investigation」を押下すると、調査が開始します。
■ 試してみた感想
AIエージェントが計画立てて調査している流れを確認することができました。特に、根本原因を探るために問題を切り分けて試行している点がGoodでした。ログやグラフのデータをもとに調査を進めているみたいです。
結果的に以下の判断をし、Lambda関数のログで詳細を確認してました。
- スロットリング → 除外
- タイムアウト → 除外
- リソース不足 → 除外
- デプロイタイミング → 関連性あり
- コードロジック → 根本原因
今回の調査で「エラーの正確な発生箇所」「エラー率」「デプロイとエラー率の時系列関係」「リソース制約がないことの確認」を実施していることがわかりました。実際に今回の調査内容を手動で確認するとなると、以下の工程を踏まないといけないので約15分で分析してくれるのは助かりますね。
手動でチェックする場合:
1. CloudWatchでアラームを確認
2. Lambda関数を特定
3. ログを検索
4. メトリクスを確認
5. デプロイ履歴を調べる
6. IAMロールを確認
7. すべてを時系列で整理
個人的には、調査結果のエクスポート機能やチームメンバーへの共有機能があると、ありがたいと思いました!
■ 10. 今後の展開
現在公式がリリースを予定している機能は以下の通りになります。
- コードレベルのバグ分析
- テストカバレッジ改善のためのより具体的な提案
- 対応ツール・連携先の拡張
● 推奨される活用方法
- 小規模なアプリケーションから開始
- 段階的に監視範囲を拡大
- チームのワークフローに統合
- 継続的な改善サイクルの確立
■ 11. まとめ
AWS DevOps Agentは、インシデント対応を自動化し、システムの信頼性向上を支援する新しいツールです。プレビュー版として無料で利用できる今が試してみる良い機会だと思います。
まずは小規模なアプリケーションから始めて、徐々に監視範囲を広げていくのが取り入れやすい流れになるのではないかと思います。Slackやチケット管理システムと連携することができるため、既存のワークフローにも自然に組み込めるかと思います。
また、深夜のアラート対応や複数ツールを横断した調査など、運用チームの負担を軽減できる可能性があります。今後のアップデートにも期待しつつ、ぜひ一度触ってみてはいかがでしょうか。
■ AWS技術資料のご案内(資料ダウンロード)
AWSの運用・導入支援は弊社にお任せください。
- サービス概要
- 実務でよくある悩み
- 改善例・提供内容の詳細
を、技術者視点で整理しています。
▶︎ 資料をダウンロードする
● あわせて読みたい関連記事
本記事とあわせて、次のテーマも参考になります。