本番ディープエージェントを支えるランタイム設計——LangSmith Deployment完全解説

本番ディープエージェントを支えるランタイム優れたエージェントを構築するには優れたハーネスが必要だ。そのエージェントをデプロイするには優れたランタイムが必要だ。ハーネスとは、エージェントがそのドメインで成功できるようにモデルの周囲に構築するシステムだ。プロンプト、ツール、スキル、エージェントを定義するモデルとツール呼び出しループをサポートするその他すべてが含まれる。ランタイムはその下にあるすべてだ: 耐久性のある実行、メモリ、マルチテナンシー、オブザーバビリティ、チームが一から作り直すことなくエージェントを本番で動かし続けるための機械。このガイドでは、エージェントをデプロイすると浮上する本番要件、それを満たすランタイム機能、そしてdeepagents deployがそれらの機能を出荷可能なものにパッケージ化する方法を説明する。 ## 本番エージェントのランタイム機能このセクションを通して「ランタイム」はLangSmith Deployment (LSD)とそのAgent Serverを指す: LSDは本番でエージェントを実行し、Agent Serverはアシスタント、スレッド、実行、メモリ、スケジュールジョブのインターフェースだ。 ## 耐久性のある実行エージェントはループを実行することで動作する: プロンプトが与えられると、モデルは推論し、ツールを呼び出し、結果を観察し、タスクが完了したと判断するまで繰り返す。ミリ秒で返される典型的なウェブリクエストとは異なり、このループは分または時間にわたる場合がある。1回の実行で数十回のモデル呼び出しが発生したり、サブエージェントを生成したり、人間が下書きを承認するまで無期限に待機することもある。実際には2つの場面で痛感する: - 長い実行はインフラ障害を生き残る必要がある。 - エージェントは停止して待機できる必要がある。エージェントは自動チェックポイントを備えた管理されたタスクキューで実行されるため、任意の実行を中断ポイントから正確に再試行、再生、再開できる。グラフ実行の各スーパーステップは永続化レイヤー（デフォルトではPostgreSQL）にチェックポイントを書き込み、実行へのカーソルとして機能するthread_idでキー管理される。 ## メモリエージェントには2種類のメモリが必要だ: 短期メモリは、エージェントが単一の会話内で蓄積するものだ。交わされたメッセージ、行われたツール呼び出し、実行全体で構築された中間状態。これはスレッドのチェックポイントに存在し、thread_idにスコープされる。長期メモリは、エージェントが会話をまたいで持ち歩くものだ。会話を通じて学んだユーザーの好み、プロジェクトの慣習とベストプラクティス、新しいクエリごとに拡張されるナレッジベースが含まれる。メモリはネームスペースタプル（例: (user_id, "memories")）で整理され、スレッドをまたいで永続化されるキーバリューインターフェースだ。 ## マルチテナンシーエージェントが複数のユーザーにサービスを提供する瞬間、問題が現れる。これらは3つの異なる懸念事項に分かれる: 1. あるユーザーのデータを別のユーザーから隔離する。カスタム認証はすべてのリクエストのミドルウェアとして実行される。 2. エージェントがユーザーの代わりに行動できるようにする。Agent AuthはOAuthフローとトークンストレージを処理する。 3. 誰がシステム自体を操作できるかを制御する。RBACがこのオペレーターレベルのアクセス制御を処理する。 ## ヒューマンインザループ (HITL) エージェントはループを実行することで動作する。ほとんどの場合はそのループを中断なく実行させたい。しかし時には、重要な意思決定ポイントで人間がループの途中に介入する必要がある。よくある2つの状況: - 提案されたツール呼び出しのレビュー。エージェントが重大なアクション（メール送信、金融取引実行、ファイル削除）を実行する前。 - エージェントが明確化の質問をする場面。 Agent Serverはこれを2つのプリミティブで処理する: interrupt()は実行を一時停止して呼び出し元にペイロードを表示する; Command(resume=...)は人間の応答で実行を継続する。 ## リアルタイムインタラクション ### ストリーミング 30秒かけて応答を生成するエージェントは、ユーザーをスピナーを見つめながら待たせる。ストリーミングはこれを解決する: エージェントが生成するにつれて部分的な出力がクライアントに流れる。ストリーミングAPIは複数のモードをサポートする: グラフの各ステップ後の完全な状態スナップショット、状態更新のみ、トークンバイトークンのLLM出力、またはカスタムアプリケーションイベント。スレッドストリーミングはLast-Event-IDヘッダーを介した再開をサポートする: クライアントは受信した最後のイベントのIDで再接続し、サーバーはギャップなしにそこから再生する。 ### ダブルテキストユーザーがエージェントがまだ前のメッセージに取り組んでいる間に新しいメッセージを送る場合。4つの戦略がある: - enqueue（デフォルト）: 新しい入力は現在の実行が終了するまで待機する。 - reject: 現在の実行が終了するまで新しい入力を拒否する。 - interrupt: 現在の実行を停止し、進捗を保存し、その状態から新しい入力を処理する。 - rollback: 現在の実行を停止し、すべての進捗を元に戻し、新しいメッセージをフレッシュな実行として処理する。 ## ガードレールすべての本番上の懸念事項が「ループを耐久的に実行する」として表現できるわけではない。一部はループ自体を形作る必要がある: モデル入力の傍受、ツール出力のフィルタリング、高コスト操作の制限。これらはミドルウェアによって処理される。ミドルウェアは定義されたフック（before_model, wrap_model_call, wrap_tool_call, after_model）でエージェントループをラップする。 LangChainは一般的なケースをカバーする組み込みミドルウェアを提供する: PIIRedactionMiddleware, ModelRetryMiddleware, ModelFallbackMiddleware, ToolCallLimitMiddleware, SummarizationMiddleware, HumanInTheLoopMiddleware, OpenAIModerationMiddleware。 ## オブザーバビリティエージェントが本番でどう動くかは、実際に動かすまでわからない。何かが間違ったとき、実際に何が起きたかを見る必要がある。すべてのLangSmith Deploymentはトレーシングプロジェクトに自動的に接続される。モデル呼び出し、ツール呼び出し、サブエージェント実行、ミドルウェアフックを含む完全な実行ツリーがすぐに利用できる。トレースはデバッグツールだけではない; 改善ループの基盤だ: - LangSmith AIアシスタントPollyがトレースを分析し、一般的な失敗モード、遅いツール呼び出し、繰り返しパターンを浮き彫りにする。 - オンラインEvalsはLLM-as-judgeまたはカスタムスコアラーを本番トレースに対して自動実行し、リグレッションが起きたときに検知する。 ## タイムトラベルオブザーバビリティは何が起きたかを教えてくれる。タイムトラベルは、何か違うことが起きていたらどうなっていたかを問うことができる。すべてのスーパーステップがチェックポイントを書き込むため、実行履歴のすべてのポイントはすでに戻ることができるスナップショットだ。タイムトラベルはこれを明示的にする: スレッドの履歴からチェックポイントを選び、状態を変更して、そこから再開する。 ## コード実行あらかじめ設定したツールしか呼び出せないエージェントは想定内のことしかできない。任意のコードを実行できるエージェントは汎用だ。任意のコード実行には隔離が必要だ。Deep Agentsでは、サンドボックスバックエンドを通じて隔離が行われる。サポートされているプロバイダーはDaytona, Modal, Runloop, LangSmith Sandboxesだ。 LangSmith Sandboxes（現在プライベートプレビュー中）の特徴: ウォームプールがコールドスタートのレイテンシをなくし、認証プロキシがアウトバウンドリクエストを傍受してワークスペースシークレットからクレデンシャルを自動的に注入する（サンドボックスコードやログにAPIキーが現れない）。 ## インテグレーション Agent Serverは3つのインテグレーションサーフェスを自動的に提供する: MCP: すべてのLangSmith DeploymentはMCPエンドポイントを自動的に公開し、MCPに対応したクライアント（Claude Desktop、IDE、他のエージェント）からあなたのエージェントを発見可能にする。 A2A: すべてのデプロイメントはA2A（エージェント間通信）エンドポイントを自動的に公開する。これにより、複数のデプロイメントにまたがるマルチエージェントアーキテクチャが扱いやすくなる。 Webhooks: 実行を作成するときにwebhook URLを渡すと、サーバーは完了時にそのURLに実行ペイロードをPOSTする。 ## Cron Agent Serverにはcronジョブが組み込まれているため、スケジュールされた実行は他のすべての実行と同じ耐久性、トレーシング、認証の保証を受ける。 2つのフレーバー: - ステートフルcron（client.crons.create_for_thread）: スケジュールを特定のthread_idに結びつける。 - ステートレスcron（client.crons.create）: 各実行のために新しいスレッドを起動する。 ## deepagents deploy deepagents deployは上記のランタイムにエージェントをデプロイするパッケージングステップだ。deepagents.tomlにエージェントを定義し、CLIが設定をバンドルしてLangSmith Deploymentとしてデプロイする。 ## オープンハーネス deepagents deployはベンダーロックインを避けるよう構築されている。ハーネスはMITライセンスで完全にオープンソース、エージェント指示はAGENTS.md（オープンスタンダード）を使用し、エージェントはオープンプロトコル（MCP, A2A, Agent Protocol）で公開される。このガイドで概説した機能—耐久性のある実行、メモリ、マルチテナンシー、ガードレール、ヒューマンインザループ、オブザーバビリティ、サンドボックスコード実行、スケジュール実行—は本番エージェントが機能するために不可欠なインフラ要件だ。deepagents deployはそれをすべてパッケージ化して、チームが一から組み立てる必要をなくす。

本番ディープエージェントを支えるランタイム設計——LangSmith Deployment完全解説

AIFCC — AI Fluent CxO Club