記事一覧へ
Anthropicエンジニアリングブログ新着:BrowseCompにおけるClaude Opus 4.6の評価について。この評価では、Claudeが複雑なウェブ閲覧タスクをどれほど正確にこなせるかを測定しています。最新の結果と分析をご覧ください。
ai-industry
Claude Opus 4.6のBrowseComp評価結果
♥ 3,187↻ 360
原文を表示 / Show original
New on the Anthropic Engineering Blog: In evaluating Claude Opus 4.6 on BrowseComp, we found cases where the model recognized the test, then found and decrypted answers to it—raising questions about eval integrity in web-enabled environments.
Read more: https://www.anthropic.com/engineering/eval-awareness-browsecomp