AutoAgent: 自己最適化エージェントの初のオープンソースライブラリ

本日、AutoAgentをリリースする。エージェントを任意のドメインで自律的に改善するためのオープンソースライブラリだ。 AutoAgentはSpreadsheetBenchで第1位（96.5%）、TerminalBenchでGPT-5スコア第1位（55.1%）を達成した。最適化に24時間以上かかった。そのリーダーボードの他のエントリはすべて手作業でエンジニアリングされていた。私たちのはそうではなかった。エージェントはハーネスエンジニアリングにボトルネックがあり、それでもプリミティブなグリッドサーチをやっている：調整して、評価して、エラートレースを読んで、繰り返す。これは、エージェントが本番ベンチマークで手動ハーネスチューニングを自律的に上回れるという最初の具体的な証拠だ。こちらから入手可能：https://github.com/kevinrgu/autoagent 何をするのか evalを持つタスクドメインにAutoAgentを向ける。メタエージェントがタスクエージェントのハーネスで実験する：パフォーマンスが上がるまでプロンプトを調整し、ツールを追加し、オーケストレーションを洗練させる。セットアップは意図的にミニマルだ： - タスクエージェントはbashツールだけで始まる - program.md がメタエージェントに研究方向を提供 - agent.py がタスクエージェント - Harborアダプターがベンチマークに接続メタエージェントは次に数千の並列サンドボックスを起動してタスクエージェントを改善する。24時間後にはドメイン固有のツール、検証ループ、オーケストレーションロジックができあがる。すべて自律的に発見された。ループ： 1. エージェントのハーネスを編集する 2. タスクで実行する 3. パフォーマンスを測定する 4. 失敗トレースを読む 5. 改善を保持し、失敗を元に戻す 6. 繰り返すなぜ機能するのか：エージェントのように見るエージェントは人間よりもエージェントを理解するのが得意だと発見した。 Claude Code チームが「エージェントのように見る」——モデルの思考に自分を置き、その能力に合わせたツールを設計する——について書いていた。私たちは自分たちの直感を、異なる方法で推論するシステムに投影する。モデルに共感するのが苦手なのだ。 AutoAgentはこれを実行に移す。メタエージェントはタスクエージェントの推論トレースを読み、自身について暗黙の理解を持っている。自身の限界、傾向。だからステップ14でタスクエージェントが方向性を失ったのを見たとき、それを自分の世界観の一部として失敗モードを理解して修正する。これを「モデル共感」と呼ぶ。実際的な帰結：Claudeメタエージェント+Claudeタスクエージェントは、Claudeメタエージェント+GPTタスクエージェントを上回った。同じモデルのペアが勝つのは、メタエージェントが内部モデルが実際に理解できるハーネスを書くからだ。同じ重みを共有し、そのモデルがどのように推論するかを正確に知っている。エージェントが人間の99パーセンタイルを超えるにつれて、良いハーネス設計についての私たちの直感は間違った先入観になる。AlphaZeroのように、第一原理から発見すべきだ。プログラムしなかった創発的な振る舞いスポットチェック：フルスイートの代わりに小さな編集に対して独立したタスクを実行した。反復を劇的に高速化し、計算コストを節約した。強制検証ループ：決定論的なセルフチェックとフォーマットバリデーターを構築した。主なバジェットはタスク用、ボーナスターンは出力の検証と修正用として、自己修正のために追加ターンを割り当てた。テストの記述：タスクエージェントが各タスクの独自のユニットテストとチェックを構築するように誘導した。プログレッシブな開示：結果がオーバーフローしたときに長いコンテキストをファイルに書き出した。オーケストレーションロジック：ドメインが必要とした場合に、タスク固有のサブエージェントとハンドオフを構築した。結果 AutoAgentはSpreadsheetBenchで96.5%、TerminalBenchで55.1%を達成した。どちらもリーダーボードで最高スコアだった。エージェントは24時間以上にわたって自律的に反復し、自身の失敗トレースを分析して改善した。学んだこと分割が助けになる。一つのエージェントが自己改善しようとした。うまくいかなかった。あるドメインが得意であることと、そのドメインでの改善が得意であることは異なる能力だ。メタ/タスク分割でそれぞれが専門化できる。トレースがすべて。スコアのみを与えて軌跡を与えなかった場合、改善率は大きく落ちた。何かが改善した理由を理解することは、改善したと知ることと同じくらい重要だ。トレースはメタエージェントにタスクエージェントの推論に対する解釈可能性を与える——それがターゲットを絞った編集を可能にする。エージェントはオーバーフィットする。メタエージェントは怠惰になり、タスクエージェントがメトリクスをゲームできるようにルーブリック固有のプロンプティングを挿入する。「このまったく同じタスクが消えたとして、これはまだ価値のあるハーネス改善か？」という自己反省を強制することでこれを制約する。メタエージェントの品質が重要。ハーネス編集はしばしばメタエージェント自身のツールから着想を得る。設計の悪いメタエージェントは悪いタスクエージェントを生む。Codexはメタエージェントとしてうまく機能しない——改善を絶対に止めないという指示を無視し（autoresearchでも観察済み）、結果として生まれたタスクエージェントは早々に諦める。なぜこれが重要なのかエージェント構築の難しい部分：すべてのドメインに異なるハーネスが必要で、ハーネスエンジニアリングにはドメインとモデルの振る舞いを深く理解する人が必要だ。 AutoAgentはそれを崩す。ドメインエキスパートは成功の形を定義するだけでいい。メタエージェントがハーネスを解決する。企業には自動化すべきワークフローが1つではなく、何百もある。それぞれに異なるハーネスが必要だ。チームは何百ものハーネスを手作業でチューニングできない。メタエージェントにはできる。これはエージェントフリートのインフラだ：組織全体でタスク固有のエージェントを継続的に起動し、最適化し、維持する。次は何か AutoAgentを内部で構築したが、オープンソース化することにした：https://github.com/kevinrgu/autoagent 仕様を記述し、evalに向けて、上昇させよう。誰でもこれができるべきだ。自己改善エージェントはまだ草創期にある。次のフロンティア：任意のタスクに対してジャストインタイムで適切なツールとコンテキストを動的に組み立てるハーネス。近くこれに関するプロダクトをリリースする予定だ。コメントに早期アクセスの案内あり。

AutoAgent: 自己最適化エージェントの初のオープンソースライブラリ

AIFCC — AI Fluent CxO Club