AIFCC
記事一覧へ
agent-opsharness-designai-industry

Claude Managed Agentsローンチ:設定可能なエージェントハーネス

20420
TL;DR — Claude Managed Agentsは、マネージドインフラで動く、あらかじめ構築された設定可能なエージェントハーネスだ。エージェントをテンプレートとして定義する — ツール、スキル、ファイル/リポジトリなど。エージェントハーネスとインフラはあなたのために提供される。このシステムはClaudeの急速に成長するインテリジェンスに追随し、長時間タスクをサポートするよう設計されている。 関連リンク: - Claudeブログ:使用パターンと顧客例 - エンジニアリングブログ:Claude Managed Agentsの設計 - ドキュメント:オンボーディング、クイックスタート、CLIとSDKの概要 --- ## なぜClaude Managed Agentsか Claude messages APIはモデルへの直接的なゲートウェイだ。メッセージを受け取り、コンテンツブロックを返す。messages API上に構築されたエージェントは、ハーネスを使用してClaudeのツール呼び出しをハンドラーにルートし、コンテキストを管理する。これはいくつかの課題をもたらす: **ハーネスはClaudeに追随する必要がある** — 私は最近、ツールオーケストレーションとコンテキスト管理を処理するためのClaude APIプリミティブを使ったエージェント構築に焦点を当てたブログを書いた。しかしエージェントハーネスはClaudeができないことについての仮定をエンコードする。これらの仮定はClaudeが能力を高めるにつれて古くなり、Claudeのパフォーマンスのボトルネックになりうる。ハーネスはClaudeに追随するために継続的に更新される必要がある。 **Claudeはより長く動いている** — Claudeのタスク時間軸は指数関数的に成長しており、METRベンチマークですでに10人間時間以上を超えている。これはエージェントを取り巻くインフラに圧力をかける。安全で、長時間タスクで発生するインフラ障害に対して回復力があり、スケーリング(多くのエージェントチームへのスケールなど)をサポートする必要がある。 これらの課題に対処することは重要だ。なぜなら将来のClaudeは人類の最大の課題に対して数日、数週間、数ヶ月にわたって動くことが期待されるからだ。Claude Agent SDKは最初のステップで、優れた汎用エージェントハーネスを提供した。Claude Managed Agentsはこの進歩の次のステップだ。Claudeが動くことが期待される時間軸で安全で信頼性の高い実行をサポートするよう設計されたハーネスとマネージドインフラを備えたシステムだ。 --- ## 始め方 オンボードする簡単な方法は、オープンソースのclaude-apiスキルを使うことだ。Claude Codeでそのまま動く。最新版のClaude Codeを入手して、Claude Managed Agentsのオンボーディングのために以下のサブコマンドを実行してほしい。スキルを機能のオンボードとして使うことにワクワクしており、このスキルを広く使ってきた: ```bash $ claude update $ claude /claude-api managed-agents-onboarding ``` SDKまたはCLIでのクイックスタートのドキュメントも参照してほしい。Claude ConsoleでもプロトタイプAgentsを作れる。 --- ## ユースケース 一般的なパターンとして私が見てきたものがある: **イベントトリガー型:** サービスがManaged Agentにタスクを実行させる。たとえば、システムがバグにフラグを立て、Managed Agentがパッチを書いてPRを開く。フラグとアクションの間に人間が入らない。 **スケジュール型:** Managed Agentがタスクを実行するようにスケジュールされる。たとえば、私や多くの人がスケジュールされた日次ブリーフィング(XやGitHubのアクティビティ、エージェントチームが何に取り組んでいるかなど)にこのパターンを使う。私が使っているXアクティビティの日次ブリーフの例がある。 **ファイア・アンド・フォーゲット型:** 人間がManaged Agentにタスクを実行させる。たとえば、SlackやTeamsでManaged Agentにタスクを割り当て、成果物(スプレッドシート、スライド、アプリ)を受け取る。 **長時間タスク:** 長時間稼働するタスクはManaged Agentsが特に役立つ領域だと思う。@karpathyのauto-researchリポジトリをフォークしていくつかのアイデアを探求してきた。たとえば最近、@_chengloupの優れたpretextライブラリを取り上げ、Managed Agentにそれをエンジニアリングブログコンテンツに適用する方法を探らせた。 --- ## 主要概念 オンボーディングの際に理解すべき3つの中心的な概念がある: **エージェント** — エージェントのアイデンティティを格納するバージョン管理された設定:モデル、システムプロンプト、ツール、スキル、MCPサーバーなど。一度作成し、IDで参照する。 **環境** — エージェントのツールが動くサンドボックスをプロビジョニングする方法を説明するテンプレート(ランタイムタイプ、ネットワークポリシー、パッケージ設定など)。 **セッション** — あらかじめ作成されたエージェント設定と環境を使ったステートフルな実行。環境テンプレートからフレッシュなサンドボックスをプロビジョニングし、実行ごとのリソース(ファイル、GitHubリポジトリ)をマウントし、セキュアなVault(MCPクレジデンシャル)に認証情報を保存する。 エージェントを設定、環境をサンドボックスのテンプレート、セッションをエージェントの実行と考えてほしい。1つのエージェントが多くのセッションを持てる。 --- ## 使い方 ドキュメントを参照してほしい: **SDK** — コード向け:アプリにインポートして実行時にセッションを動かす。6つの言語がManaged Agentsをサポートしている:Python、TypeScript、Java、Go、Ruby、PHP。 **CLI** — ターミナル向け:すべてのAPIリソース(エージェント、環境、セッション、Vault、スキル、ファイル)がサブコマンドとして公開されている。 **一般的なパターン** — セットアップにCLIを使い、ランタイムにSDKを使う。エージェントテンプレートは永続的だ。一度作成し、(モデル、システムプロンプト、ツール、MCPサーバー、スキルを含むYAMLとして)保存し、デプロイパイプラインでCLIに適用させる。 --- ## 仕組み @mc_anthropic、@gcemaj、@jkeatnと共に、Claude Managed Agentsの構築プロセスについてAnthropicエンジニアリングブログ記事を書いた。そこで共有する教訓は、Claudeのインテリジェンスでスケールするエージェントを構築することはインフラの課題であり、ハーネス設計の問題ではないということだ。 これを念頭に、私たちは特定のエージェントハーネスを設計しなかった。エージェントハーネスは常に進化し続けると予想している。代わりに、「脳」(Claudeとそのハーネス)、「手」(アクションを実行するサンドボックスとツール)、「セッション」(セッションイベントのログ)として考えていたものを切り離した。 各コンポーネントは他のものについての仮定を少なくしたインターフェースになり、それぞれが独立して失敗または置き換え可能になった。これによりシステムに信頼性、セキュリティ、将来のハーネス、サンドボックス、セッションを格納するインフラを追加する柔軟性が生まれることをシェアしている。 --- ## まとめ マルチエージェントオーケストレーションや長時間タスクの異なるパターンを探求するプロジェクトに興奮している。過去に書いたフラストレーションの1つは、エージェントハーネスをモデルの能力に追随させることだ。Claude Managed Agentsはエージェントハーネスとインフラを代わりに処理してくれ、Claude APIの新しいコアプリミティブとしてのエージェントの上での探求を可能にする。
原文を表示 / Show original
TL;DR – Claude Managed Agents is a pre-built, configurable agent harness that runs in managed infrastructure. You define an agent as a template – tools, skills, files / repos, etc. The agent harness and the infrastructure are provided for you. The system is designed to keep pace with Claude’s rapidly growing intelligence and support long horizon tasks. Some useful links: Claude blog: Usage patterns and customer examples Engineering blog: The design of Claude Managed Agents Docs: Onboarding, quickstart, overview of the CLI and SKDs Why Claude Managed Agents The Claude messages API is a direct gateway to the model: it accepts messages and returns content blocks. Agents built on the messages API use a harness to route Claude’s tool calls to handlers and manage context. This poses a few challenges: Harnesses need to keep up with Claude – I recently wrote a blog here focused on building agents using Claude API primitives to handle tool orchestration and context management. But agent harnesses encode assumptions about what Claude can’t do. These assumptions grow stale as Claude gets more capable and can bottleneck Claude’s performance. Harnesses need to be continually updated to keep pace with Claude. Claude is running for longer – Claude’s task horizon is growing exponentially, already exceeding over 10 human-hours of work on the METR benchmark. This puts pressure on the infrastructure around an agent: it needs to be safe, resilient to infrastructure failures that happen over long horizon tasks, and support scaling (e.g., to many agent teams). Addressing these challenges is important because we expect future Claude to run over days, weeks, or months on humanity's greatest challenges. The Claude Agent SDK was a first step, providing an excellent general purpose agent harness. Claude Managed Agents is the next step in this progression: a system with the harness and managed infrastructure designed to support safe, reliable execution over the time-horizon that we expect Claude to work. How to get started An easy way to onboard is to use our open source claude-api skill, which works out of the box in Claude Code. Get the latest version of Claude Code and run the following sub-command for Claude Managed Agents onboarding. I’m excited about skills as a way to onboard to new features, and have used this skill extensively: json $ claude update $ claude /claude-api managed-agents-onboarding Also see our docs for quickstart with the SDKs or CLI, and prototype agents in Claude Console. Use cases You can see our Claude blog for a number of interesting examples. Some of the common patterns I’ve noticed across these examples and my own work: Event-triggered: A service triggers the Managed Agent to do a task. For example, a system flags a bug and a managed agent writes the patch and opens the PR. No human in the loop between flag and action. Scheduled: Managed Agent is scheduled to do a task. For example, I and many others use this pattern for scheduled daily briefs (e.g., of X or Github activity, what a team of agents is working on). Here's an example daily brief of X activity that I use. Fire-and-forget: Humans trigger the Managed Agent to do a task. For example, assign tasks to the Managed Agent via Slack or Teams and get back deliverables (spreadsheets, slides, apps). Long-horizon tasks: Long-running tasks are an area where I think Managed Agents will be particularly useful. I’ve explored this by forking @karpathy's auto-research repo and exploring a few different ideas. For example, I recently took @_chenglou’s excellent pretext library and had a Managed Agent explore ways to apply it to our engineering blog content. GIF Key concepts When onboarding, there’s three central concepts to understand: Agent — A versioned config that houses the agent's identity: model, system prompt, tools, skills, MCP servers, etc. You create it once and reference it by ID. Environment — A template describing how to provision the sandbox the agent's tools run in (e.g., runtime type, networking policy, and package config). Session — A stateful run using the pre-created agent config and environment. It provisions a fresh sandbox from the environment template, mounts any per-run resources (files, GitHub repos), stores auth in a secure vault (MCP credentials). Think about an agent as a configuration, an environment as a template describing the sandbox you want the agent to access for code execution, and the session as any agent execution. One agent can have many sessions. Usage See docs here: SDKs – These are code-facing: import them in your app to drive sessions at runtime. Six languages have Managed Agents support: Python, TypeScript, Java, Go, Ruby, PHP. CLI – Terminal-facing: every API resource (agents, environments, sessions, vaults, skills, files) is exposed as a subcommand. Common patterns – Use the CLI for setup and SDK for runtime. Agents templates are persistent: you create one, store it (e.g., as a YAML with model, system prompt, tools, MCP servers, skills in git) and have the CLI apply it in your deploy pipeline. How it works I wrote an Anthropic engineering blog post with @mc_anthropic, @gcemaj, and @jkeatn on the process of building Claude Managed Agents: a lesson we share in the post is that building agents to scale with Claude’s intelligence is an infrastructure challenge, not strictly a matter of harness design. With this in mind, we didn’t design a particular agent harness; we expect agent harnesses to constantly evolve. Instead we decouple what we thought of as the “brain” (Claude and its harness) from both the “hands” (sandboxes and tools that perform actions) and the “session” (the log of session events). Each became an interface that made few assumptions about the others, and each could fail or be replaced independently. We share how this gives the system reliability, security, and flexibility to add future harnesses, sandboxes, or infrastructure to house sessions. Conclusion I'm excited about projects exploring different patterns of multi-agent orchestration or long-running tasks. One of the frustrations I've written about in the past is keeping agent harnesses up with model capabilities. Claude Managed Agents handles the agent harness and infrastructure for you, allowing for explorations on top of the agent as a new core primitive in the Claude API.

AIFCC — AI Fluent CxO Club

読み書きそろばん、AI。経営者が AI を自分で動かせるようになるコミュニティ。

Claude Managed Agentsローンチ:設定可能なエージェントハーネス | AIFCC