Context Provider：エージェントとツールの間に欠けていた層

ある程度の数のツールを持つエージェントを構築したことがあれば、3つの壁にぶつかっているはずです： - ツールが多すぎることによるコンテキスト汚染 - スコープが重なることによるパフォーマンス低下 - コンテキストがすべてツール指示になってしまうため、メインエージェントが自分の仕事を忘れる異論があるなら、Slack、Google Drive、Notionに同時アクセスできるエージェントを試してみてください。検索が機能するか教えてください。これらの問題を解決する新しいプロトコルをテストしていましたが、初期結果が十分良好だったので広く共有します。 ## 3つの壁 **コンテキスト汚染。** すべてのツールが貴重なコンテキストを消費します。スキーマ、説明、使用例、これらすべてがシステムプロンプトに収まります。Slackツールキットは8〜12のツール。Gmailは6〜10。Calendarがさらに6。Drive、GitHub、CRM、ウェブ。カスタムなものを追加する前に50ツールに達します。20を超えると、モデルは存在しないツールをハルシネーションしたり、誤った形でツールを呼び出し始めます。 **スコープが曖昧では合成できない。** 2つのツールが両方ともworkspace引数を取ります：一方はSlackのもの、もう一方はGoogleのもの。あるMCPでのsearchが別のMCPでのsearchと衝突します。send_messageはSlack、メール、またはCRMである可能性があります。エージェントは半分の確率で間違いを選び、どんな命名規則も修正できません。なぜなら同じ単語が異なるソースで正当に異なる意味を持つからです。自分がコントロールしないソース（MCPサーバー、サードパーティSDK、他のチーム）からツールを合成した瞬間、重複が生じ、モデルには信頼できる曖昧さ解消の方法がなくなります。 **ツール使用ロジックがメインエージェントに集中している。** これが最も深い壁であり、最も多くの問題を引き起こすものです。エージェントがSlackをうまく使うためには、システムプロンプトがSlackを説明しなければなりません：DMを送る前にユーザーIDを調べる、投稿する前にチャンネル名をIDに変換する。これだけでSlack固有のガイダンスが数百トークンになります。Gmailでも同じことをします。Calendarでも。システムプロンプトはあらゆるAPIの癖の和集合になります。ユーザーがSlackについてだけ聞いた時でも、すべてのターンですべてのルールを運びます。メインエージェントはユーザーの質問と呼び出す可能性のあるすべてのAPIの仕組みを両方推論することを強いられます。ソースを追加するということはプロンプトを編集して他に影響が出ないことを祈ることを意味します。 ## 欠けていた層現在の標準的なエージェントの形は：Agent <- Tools またはMCPを使って：Agent <- MCP server <- Tools またはSkillを使って：Agent <- Skill instructions <- Tools どの場合も、エージェントはすべてのソースの生のツール面を見ます。すべてのSlackツール、すべてのDriveツール、すべてのCRMツール。エージェントのプロンプトにはそれらすべての使い方を含める必要があります。私がテストしてきた形は、その間に薄い層を置きます： Agent <-> ContextProvider 各ContextProviderは1つのソースをラップします（例：Slack、FileSystem、Drive）呼び出し側のエージェントには、ちょうど2つのツールだけを公開します： - query_<source>(question) — 自然言語での読み取り - update_<source>(instruction) — 自然言語での書き込みそれだけです。メインエージェントはSlackの12のツールを見ません。query_slackとupdate_slackだけを見ます。Driveの癖を見ません。query_driveを見ます。10のソースを追加しても、エージェントのツール面は最大2Nで線形に保たれます。各ツールの背後には、そのソース専用にスコープされたサブエージェントがあります。サブエージェントはソースのツール、ソースの癖、書き込み前のルックアップパターン、ページネーションの奇妙さを所有します。独自のコンテキストで実行し、回答を返し、メインエージェントはクリーンな結果を得ます。 ```python from agno.agent import Agent from agno.context.slack import SlackContextProvider from agno.context.gdrive import GDriveContextProvider from agno.context.database import DatabaseContextProvider slack = SlackContextProvider(id="slack", token=...) drive = GDriveContextProvider(id="drive", service_account_file=...) crm = DatabaseContextProvider(id="crm", sql_engine=engine) agent = Agent( model=..., tools=[*slack.get_tools(), *drive.get_tools(), *crm.get_tools()], ) ``` エージェントが見るのは4つのツールです：query_slack、query_drive、query_crm、update_crm。 ## Skillについては？ Skillは壁3への素晴らしい試みです。Skillはタスク固有の指示（「Slackの使い方はこうです」）を、システムプロンプトに常時保持するのではなく、必要に応じてモデルがロードするモジュールにパッケージ化します。 Skillはタスクの知識を常時オンのプロンプトから、よりコンディショナルなものへ移動させます。しかしSlackのツールはSkillが呼び出された後もエージェントに降ってきます。2つのSkillをロードすると、searchはまだ衝突します。実際、気づかないうちに競合するSkillがエージェントを台無しにする確率がより高くなります。 ContextProvider + Skillは一緒により上手く機能します。 Slack ContextProviderのサブエージェントはそれ自体がSlack Skillをロードできます。そこでSkillが最もよく機能します。Slackに対して実際に実行しているものの文脈の中で、答えを欲しがっているだけのメインエージェントの中ではなく。分け方は大まかに言えば：Skillはタスクのやり方を圧縮します。ContextProviderはメインエージェントが委任を決めるまでタスクが存在することを隠します。 ## 例完全なクックブックのセットがcookbook/12_contextにあります。 **すぐに使えるソース。** Filesystem (00)、database (04)、Slack (05)、Google Drive (07)、GitHub (12)、そしてExaまたはParallel経由のウェブ、直接SDKまたはMCPエンドポイント (01, 02, 03, 11)。すべてのプロバイダーは同じquery_<id> / update_<id>の形式に従います。 **実際のセキュリティを持つ読み取り/書き込み分離。** 04_database_read_write.pyはSQLite DBを起動し、エージェントにコンタクトを挿入させ、読み返させ、直接SQLで検証させます。読み取りと書き込みは別々のエンジンを持つ別々のサブエージェントを通ります。12_github.pyは実際のリポジトリで同じ形を行います：クローン上の読み取り専用サブエージェントで読み、<prefix>/<task>ブランチのセッションごとのworktreeで操作するサブエージェントで書き、PRで終わります。エージェントはmainブランチにpushできませんが、読み取りはできます。 **合成型マルチソース。** 09_web_plus_slack.pyはオーケストレーションコードなしでは平面的なツールレイアウトにできない形です。エージェントはSlackチャンネルからトピックを引き出し、トピックごとのウェブ検索を実行し、各内部スレッドを外部リファレンスに結びつけるブリーフィングを返します。 **MCPラッパー。** 06_mcp_server.pyは任意のMCPサーバー（stdioまたはHTTP）を単一のquery_<id>ツールとしてラップします。サブエージェントの指示は接続時のサーバーのlist_tools()レスポンスから構築されるため、呼び出し側のエージェントは古いツールドキュメントを見ることがありません。これが50ツールのMCPサーバーをメインエージェントの視点から1ツールに圧縮する手法です。 ## 驚きとオープンクエスチョンいくつかの興味深い観察。 **サブエージェントは予想より安価でした。** 追加ホップが支配的になると思っていました。そうなりませんでした。メインエージェントのコンテキストが非常に小さくなるため、呼び出しが速くかつ優れたものになり、サブエージェントはそのソースに触れるターンでのみ起動します。Scoutのワークロードでは、低ソース数で合計トークンはほぼ横ばいで、ソース数が増えるにつれて改善します。実時間レイテンシは私が測定したすべてのソース数で低下しました。 **メインエージェントのプロンプトが大幅に小さくなりました。** 少しのオーケストレーションロジックが必要だと思っていましたが、違いました。統一されたサーフェスで、ルーティングルールは「正しいquery_<source>を選ぶ」に収束します。 gpt-5.4はすぐに使え、ソースの使い方についてゼロのガイダンスを必要としません。これは、私がこのパターンについてなぜこんなに興奮しているかを本当に理解するために実際に見る必要がある種の魔法です。 **合成が機能します。** 2つのプロバイダーが同じターンで互いを読み取ることができます（議論のためにquery_slack、ドキュメントのためにquery_drive）、そしてメインエージェントが統合を書きます。複数のソースはずっとうまく一緒に機能します。 **ソースの追加は1行。** 削除も1行。バックエンドのスワップ（ウェブプロバイダーのExaからParallel）はプロバイダーの内部に留まります。エージェントは気づきません。そしてソースは機能します。エージェントのプロンプトをその使い方で更新する必要がないからです。まだ取り組んでいることがいくつかあります。 **メインエージェントのプロンプトはどこまで薄くできるか？** evalでこれをヒルクライムして、どこまで押し進められるか見ています。まったく指示を与えない世界はあるでしょうか？ **セッション内の呼び出し間のキャッシュ。** 同じquery_<source>("who's on the X channel")は2ターン後に作業をやり直すべきではありません。 **ホップを越えて持続するユーザー単位の認証。** 部分的に解決済み（ScoutはサブエージェントにuUser_id、session_id、metadata、dependenciesを渡します）。OAuthの形のソースについてはさらに作業が必要です。 **代わりに基礎となるツールを公開するタイミング。** ソースによっては、エージェントが直接ツール呼び出しを駆動することで恩恵を受けることがあります。通常、ソースが小さくてスキーマコストが低く、エージェントの推論が制限要因である場合です。プロトコルにはこのためのモードがあります。境界がどこにあるかはまだ把握中です。リンク： Examples Scout

Context Provider：エージェントとツールの間に欠けていた層

AIFCC — AI Fluent CxO Club