記事一覧へ
本日、AutoAgentをリリースする。エージェントを任意のドメインで自律的に改善するためのオープンソースライブラリだ。
AutoAgentはSpreadsheetBenchで第1位(96.5%)、TerminalBenchでGPT-5スコア第1位(55.1%)を達成した。最適化に24時間以上かかった。
そのリーダーボードの他のエントリはすべて手作業でエンジニアリングされていた。私たちのはそうではなかった。
エージェントはハーネスエンジニアリングにボトルネックがあり、それでもプリミティブなグリッドサーチをやっている:調整して、評価して、エラートレースを読んで、繰り返す。
これは、エージェントが本番ベンチマークで手動ハーネスチューニングを自律的に上回れるという最初の具体的な証拠だ。
こちらから入手可能:https://github.com/kevinrgu/autoagent
何をするのか
evalを持つタスクドメインにAutoAgentを向ける。メタエージェントがタスクエージェントのハーネスで実験する:パフォーマンスが上がるまでプロンプトを調整し、ツールを追加し、オーケストレーションを洗練させる。
セットアップは意図的にミニマルだ:
- タスクエージェントはbashツールだけで始まる
- program.md がメタエージェントに研究方向を提供
- agent.py がタスクエージェント
- Harborアダプターがベンチマークに接続
メタエージェントは次に数千の並列サンドボックスを起動してタスクエージェントを改善する。24時間後にはドメイン固有のツール、検証ループ、オーケストレーションロジックができあがる。すべて自律的に発見された。
ループ:
1. エージェントのハーネスを編集する
2. タスクで実行する
3. パフォーマンスを測定する
4. 失敗トレースを読む
5. 改善を保持し、失敗を元に戻す
6. 繰り返す
なぜ機能するのか:エージェントのように見る
エージェントは人間よりもエージェントを理解するのが得意だと発見した。
Claude Code チームが「エージェントのように見る」——モデルの思考に自分を置き、その能力に合わせたツールを設計する——について書いていた。
私たちは自分たちの直感を、異なる方法で推論するシステムに投影する。モデルに共感するのが苦手なのだ。
AutoAgentはこれを実行に移す。メタエージェントはタスクエージェントの推論トレースを読み、自身について暗黙の理解を持っている。自身の限界、傾向。だからステップ14でタスクエージェントが方向性を失ったのを見たとき、それを自分の世界観の一部として失敗モードを理解して修正する。
これを「モデル共感」と呼ぶ。
実際的な帰結:Claudeメタエージェント+Claudeタスクエージェントは、Claudeメタエージェント+GPTタスクエージェントを上回った。同じモデルのペアが勝つのは、メタエージェントが内部モデルが実際に理解できるハーネスを書くからだ。同じ重みを共有し、そのモデルがどのように推論するかを正確に知っている。
エージェントが人間の99パーセンタイルを超えるにつれて、良いハーネス設計についての私たちの直感は間違った先入観になる。AlphaZeroのように、第一原理から発見すべきだ。
プログラムしなかった創発的な振る舞い
スポットチェック:フルスイートの代わりに小さな編集に対して独立したタスクを実行した。反復を劇的に高速化し、計算コストを節約した。
強制検証ループ:決定論的なセルフチェックとフォーマットバリデーターを構築した。主なバジェットはタスク用、ボーナスターンは出力の検証と修正用として、自己修正のために追加ターンを割り当てた。
テストの記述:タスクエージェントが各タスクの独自のユニットテストとチェックを構築するように誘導した。
プログレッシブな開示:結果がオーバーフローしたときに長いコンテキストをファイルに書き出した。
オーケストレーションロジック:ドメインが必要とした場合に、タスク固有のサブエージェントとハンドオフを構築した。
結果
AutoAgentはSpreadsheetBenchで96.5%、TerminalBenchで55.1%を達成した。どちらもリーダーボードで最高スコアだった。エージェントは24時間以上にわたって自律的に反復し、自身の失敗トレースを分析して改善した。
学んだこと
分割が助けになる。一つのエージェントが自己改善しようとした。うまくいかなかった。あるドメインが得意であることと、そのドメインでの改善が得意であることは異なる能力だ。メタ/タスク分割でそれぞれが専門化できる。
トレースがすべて。スコアのみを与えて軌跡を与えなかった場合、改善率は大きく落ちた。何かが改善した理由を理解することは、改善したと知ることと同じくらい重要だ。トレースはメタエージェントにタスクエージェントの推論に対する解釈可能性を与える——それがターゲットを絞った編集を可能にする。
エージェントはオーバーフィットする。メタエージェントは怠惰になり、タスクエージェントがメトリクスをゲームできるようにルーブリック固有のプロンプティングを挿入する。「このまったく同じタスクが消えたとして、これはまだ価値のあるハーネス改善か?」という自己反省を強制することでこれを制約する。
メタエージェントの品質が重要。ハーネス編集はしばしばメタエージェント自身のツールから着想を得る。設計の悪いメタエージェントは悪いタスクエージェントを生む。Codexはメタエージェントとしてうまく機能しない——改善を絶対に止めないという指示を無視し(autoresearchでも観察済み)、結果として生まれたタスクエージェントは早々に諦める。
なぜこれが重要なのか
エージェント構築の難しい部分:すべてのドメインに異なるハーネスが必要で、ハーネスエンジニアリングにはドメインとモデルの振る舞いを深く理解する人が必要だ。
AutoAgentはそれを崩す。ドメインエキスパートは成功の形を定義するだけでいい。メタエージェントがハーネスを解決する。
企業には自動化すべきワークフローが1つではなく、何百もある。それぞれに異なるハーネスが必要だ。チームは何百ものハーネスを手作業でチューニングできない。メタエージェントにはできる。
これはエージェントフリートのインフラだ:組織全体でタスク固有のエージェントを継続的に起動し、最適化し、維持する。
次は何か
AutoAgentを内部で構築したが、オープンソース化することにした:https://github.com/kevinrgu/autoagent
仕様を記述し、evalに向けて、上昇させよう。誰でもこれができるべきだ。
自己改善エージェントはまだ草創期にある。次のフロンティア:任意のタスクに対してジャストインタイムで適切なツールとコンテキストを動的に組み立てるハーネス。
近くこれに関するプロダクトをリリースする予定だ。コメントに早期アクセスの案内あり。

オープンソースエージェントAIagent-opsharness-design
AutoAgent: 自己最適化エージェントの初のオープンソースライブラリ
♥ 5,828↻ 678
原文を表示 / Show original
today we're releasing AutoAgent, an open source library for autonomously improving an agent on any domain.
AutoAgent hit both the #1 on SpreadsheetBench (96.5%) and the #1 GPT-5 score on TerminalBench (55.1%) after optimizing for 24+ hours
every other entry on those leaderboards was hand-engineered. ours wasn't.
agents have been bottlenecked by harness engineering, yet we're still doing primitive grid search: tweak, eval, read error traces, repeat
this is the first concrete evidence that an agent can autonomously beat manual harness tuning on production benchmarks.
available here: https://github.com/kevinrgu/autoagent
here's what it does
point AutoAgent at a task domain with evals. a meta-agent experiments on a task agent's harness: tweaking prompts, adding tools, refining orchestration until performance climbs.
the setup is minimal by design:
the task agent starts with just a bash tool
program.md gives the meta-agent its research direction
agent.py is the task agent
a Harbor adapter connects to your benchmark
the meta-agent then spins up 1000s of parallel sandboxes to improve the task agent. 24 hours later it has domain-specific tooling, verification loops, and orchestration logic. all discovered autonomously
the loop:
1. edit the agent's harness
2. run it on tasks
3. measure performance
4. read failure traces
5. keep improvements, revert failures
6. repeat
why this works: seeing like an agent
we discovered agents are better at understanding agents than we are
the Claude Code team wrote about "seeing like an agent", putting yourself in the mind of the model, designing tools shaped to its abilities
Thariq
@trq212
·
Feb 28
Article
Lessons from Building Claude Code: Seeing like an Agent
One of the hardest parts of building an agent harness is constructing its action space.
Claude acts through Tool Calling, but there are a number of ways tools can be constructed in the Claude API with...
250
1.6K
11K
3.9M
we project our own intuitions onto systems that reason differently. we're bad at empathizing with models
AutoAgent operationalizes this. the meta-agent reads the task agent's reasoning traces and already has implicit understanding of itself. its own limitations, tendencies. so when it sees the task agent lost direction at step 14, it understands the failure mode as part of its worldview and corrects it
we call this 'model empathy'
practical consequence: Claude meta-agent + Claude task agent outperformed Claude meta-agent + GPT task agent. same-model pairings win because the meta-agent writes harnesses the inner model actually understands. it shares the same weights and knows exactly how that model reasons
as agents surpass 99th percentile human performance, our intuitions about good harness design become the wrong prior. like AlphaZero, they should discover from first principles
emergent behaviors we didn't program
spot checking: ran isolated tasks for small edits instead of full suite. dramatically sped up iteration, saved compute
forced verification loops: built deterministic self-checks and formatting validators. budgeted extra turns for self-correction with main budget for the task & bonus turns for verifying and correcting output
writing tests: steered the task agent to build its own unit tests and checks for each task
progressive disclosure: dumped long contexts to files when results overflowed
orchestration logic: built task-specific subagents and handoffs when the domain required it
results
AutoAgent hit 96.5% on SpreadsheetBench and 55.1% on TerminalBench. both were the highest scores in the leaderboard. the agent iterated autonomously across 24+ hours, analyzing its own failure traces and improving
what we learned
splitting helps. we tried one agent improving itself. didn't work. being good at a domain and being good at improving at that domain are different capabilities. the meta/task split lets each specialize
traces are everything. when we only gave scores without trajectories, improvement rate dropped hard. understanding why something improved matters as much as knowing that it improved. traces give the meta-agent interpretability over the task agent's reasoning—that's what makes targeted edits possible
agents overfit. the meta-agent gets lazy, inserting rubric-specific prompting so the task agent can game metrics. we constrain this by forcing self-reflection: "if this exact task disappeared, would this still be a worthwhile harness improvement?"
meta-agent quality matters. harness edits are often inspired by the meta-agent's own tooling. a poorly designed meta-agent produces poor task agents. Codex doesn't work well as a meta-agent—it ignores instructions to never stop improving (observed in autoresearch too), and the resulting task agent gives up too early
why this matters
the hard part of building agents: every domain needs a different harness, and harness engineering requires someone who deeply understands both the domain and how models behave
AutoAgent collapses that. domain experts just define what success looks like. the meta-agent figures out the harness
companies don't have one workflow to automate, they have hundreds. each needs a different harness.
no team can hand-tune hundreds of harnesses. a meta-agent can
this is infrastructure for agent fleets: continuously spinning up, optimizing, and maintaining task-specific agents across entire organizations
what's next
we built AutoAgent internally but decided to open source it: https://github.com/kevinrgu/autoagent
describe a spec, point it at evals, let it climb. everyone should be able to do this
self-improving agents are still in their infancy. next frontier: harnesses that dynamically assemble the right tools and context just-in-time for any task
we're releasing a product around this soon. early access in comments