記事一覧へ
単純なテスト時手法でエージェントベンチマークのSOTAを達成できることが判明しました!
LLM-as-a-Verifierを紹介します。
テスト時スケーリングは効果的ですが、多数の候補から「勝者」を選ぶことがボトルネックです。LLMからよりクリーンなシグナルを抽出する方法を紹介します。 https://t.co/phv32GvRA0

ai-thinking
LLM-as-a-Verifierでエージェントベンチマーク SOTA達成
♥ 975↻ 133🔖 955👁 111,575
原文を表示 / Show original
Turns out we can get SOTA on agentic benchmarks with a simple test-time method!
Excited to introduce LLM-as-a-Verifier.
Test-time scaling is effective, but picking the "winner" among many candidates is the bottleneck. We introduce a way to extract a cleaner signal from the https://t.co/phv32GvRA0