記事一覧へ
Opus 4.7が昨日リリースされた。みんな興奮しているが、実際にテストした人たちはリアルな変化に気づいていて、そのすべてが良い方向というわけではない。
4.6と同じ使い方をすれば、結果は悪くなる。そしてコストも上がる。
Suhail Kakar @SuhailKakar・4月16日
ANTHROPICがOPUS 4.7をリリースした!!
大規模なコードベースのリファクタリングをClaude Opus 4.7に依頼した。68分、数百万トークンを消費して完了した。
何も動かなかった。アプリは完全に壊れた。
でも神のように美しかった
424 868 21K 816K
おかしな話に聞こえるのはわかっている。新しいモデル、より良いベンチマーク、高解像度ビジョン、自己検証、コーディングタスクで+13%、それなのに旧バージョンより悪い出力を出せるのか?
なぜなら4.7は「より良い4.6」ではないからだ。Anthropicが今回行ったデザイン上の選択は、曖昧で雑なプロンプトに意図的にペナルティを課している。
4.6をプロンプトした方法で4.7をプロンプトすれば、金銭的にも品質的にも「税金」を支払うことになる。この記事はその修正方法を示す。
■ 悪いプロンプティングを罰するメカニズム
【temperature、top_p、top_k】
文字通りそうだ。APIでこれらのサンプリングパラメータに非デフォルト値を設定すると、リクエストが失敗する。
非開発者向けに説明すると:これらはモデルをより「創造的」(高temperature)またはより決定論的(temperature=0)にするつまみだ。長年、people はtemperature=0をデフォルトとして使ってきた——同じプロンプト、同じ出力、サプライズなし。それが雑なプロンプトを支えるガムテープだった。
Anthropicはそのガムテープを取り除いた。プロンプトが曖昧なら、もうサンプリングで出力を安定させることはできない。正確にプロンプトするか、制御できない分散を受け入れるかだ。
Anthropic APIでtemperature: 0をハードコードしているすべてのコードベースは、今すぐ4.7で壊れている。
【Extended thinking budgetsが廃止。Adaptive thinkingが唯一のモード】
以前はモデルに「最大Nトークンで考えろ」と指定できた。コスト上限があり、予測可能だった。
今は:モデルが考える時間を自分で決める。そしてプロンプトが曖昧だと長く考える。
つまり曖昧なプロンプトはモデルにあなたの意図を推測させるために過剰な思考をさせる。その推論コストはあなたが払う。上限は設定できない。不精確さは今や直接的にコスト化されている。
【xhighエフォートが全プランのデフォルトに】
Claude CodeはかつてデフォルトがHighだった。4.7ではPro、Max、Teams、Enterpriseをまたいでデフォルトがxhighになる——より多くの思考トークン、より高いコスト、平均的にはわずかに良い出力。
つまりすべての曖昧なプロンプトが昨日より高くなった。不精確さの基本価格が一晩で上がった、何も変更しなくてもだ。
【Task Budgets(タスクバジェット)】
エージェントはあなたのプロンプトのクロックを監視するようになった。
タスクバジェットはClaudeに思考・ツール呼び出し・ツール結果・最終出力を含むエージェントループ全体でどれくらいトークンを費やすかを大まかに伝える。ハードキャップではなく、モデルは実行中のカウントダウンを見てタスクを優先順位付けし「バジェットが消費されながらもグレースフルにタスクを完了」させる。
罠はこれだ。プロンプトが曖昧だと、モデルはあなたの意図を解釈するために早期バジェットを費やす。集中できた頃にはカウントダウンが少なく、出力が急ぎすぎたり切り捨てられたりする。
ドキュメントは文字通りこう警告している:「モデルに与えられたタスクバジェットが特定のタスクに対して制限的すぎると、モデルはタスクを不完全に完了するか、タスクの完了を拒否する可能性があります」
「エージェントに投げて祈る」時代は終わった。不精確さはバジェットを吹き飛ばすのではなく、実際の作業が始まる前にバジェットを食い尽くす。
【より文字通りの指示遵守】
モデルはあなたの意図を推測しない。
これが最も地味で最も重要だ。公式ドキュメントの「Behavior changes」セクションからそのまま:
旧バージョンのClaudeは空白を埋めてくれた。「要約」を形式や長さを指定せずに求めると、モデルは妥当なものを選んだ。4.7はそうしない。あなたが言ったことを正確に実行し、あなたが言ったことが不完全なら、返ってくるものも不完全だ。
これが気づかれずに感じるペナルティだ。出力はプロンプトに技術的に一致している。ただあなたの意図とは一致していない——あなたが意図を明示せず、モデルがそれを補ってくれるのをやめたからだ。
■ パターン
これら5つの変化を一緒に見ると、すべて同じ方向に進んでいる:不精確さのコストが上がった。
削除:雑なプロンプトを覆い隠せるつまみ
追加:入力の曖昧さに応じてスケールするコスト乗数
適用:解釈なしにプロンプトを文字通り受け取るモデル
Anthropicはプロンプトの曖昧さを収益に変換した。不精確な人は金銭的に、出力品質的に、またはその両方で支払う。4.7はモデルのアップグレードというよりも、あなたのプロンプト習慣の再値付けだ。
■ ペナルティを受けないために
APIパラメータ、更新されたデフォルト
temperature、top_p、top_kをリクエストから完全に省略する。デフォルト値に設定するのではなく、削除する。値を設定すると400エラーになる。
短いタスクのthinkingをオフに:分類、抽出、フォーマット、シンプルな書き直し、タグ付け。Adaptive thinkingはそこに推論することが何もない時にはオーバーキルで、4.7でのコスト漏れの最大の単一原因だ。
コーディング、複数ステップの推論、トレードオフや曖昧さのあるものにはthinkingをオンのまま:ここが4.7がその価格に見合う場所だ。
エージェント的なものにはタスクバジェットを明示的に設定する。良い出発点のルール:有能な人間エンジニアが自分でタスクをこなすのに必要なトークンの2〜3倍。モデルがそのバジェットを使い切るなら、プロンプトが問題でモデルではない。
些細なタスクのエフォートをxhighからmediumまたはlowに下げる。メールを要約するのにxhigh価格を払うのをやめる。xhighはハードな作業のための正しいデフォルトであり、すべての作業のためではない。
■ プロンプトの仕方
【コーディング/エンジニアリング】
明示的にすべきこと:言語とフレームワーク、期待するスタイルやパターン、テストや受け入れ基準、そして重要なことに、モデルが「すべきでないこと」。
× 「日付をパースする関数を書いて」
○ 「dateutilを使ってISO 8601と米国日付フォーマットをパースし、曖昧な入力にはValueErrorを発生させ、今日の日付にフォールバックしないPython関数を書いて」
2つ目は書くのに20秒余分にかかる。50ドルのトークン無駄遣いと3回の反復を節約できる。
【分析/推論】
推論自体を過剰に構造化しない——Adaptive thinkingはそれが得意だ。出力をフレーミングすること:誰のためのものか、どんな決定に役立つか、どんな形式を取るべきか、どれくらい長くすべきか。
モデルは推論できる。出力をどう使うかを読み取ることはできない。
【エージェントワークフロー(Claude Code、自律エージェント)】
必須チェックリスト:
・タスクバジェットを明示的に設定
・システムプロンプトにステップバイステップの計画
・停止基準の定義(「テストがパスしたら停止」は「完了したら停止」より良い)
・フォールバックの定義(「xが見つからなければyを返せ、推測するな」)
これらなしの4.7エージェントはバジェットを食い尽くしてゴミを渡してくれる。
【クリエイティブ/ライティング】
逆説的に、4.7が最も許容度が高い場所だ。構造を緩めにできる。ただしスタイルの参考例、トーンの例、明確な視点は必要だ。
「xxxxについてのクリエイティブな投稿を書いて」はコーポレート当たり障りのないものを出す。「プロンプトエンジニアリングについて聞かされるのに飽き飽きした怒ったシニアエンジニアのように書いて」は投稿する価値のあるものを出す。
【長コンテキスト/RAG】
明確なアンカーでドキュメントを事前構造化する。どのセクションを優先するかモデルに伝える。出力フォーマットだけでなく指示の中に引用を要求する。4.7の自己検証は不確かなソースを暗黙的に低く評価する——希望するのではなく明示化しろ。
■ 4.6→4.7マイグレーションチェックリスト
4.7にプロンプトを送る前に確認:
1. 意図は明示的か、それとも推測を期待しているか?
2. 成功がどう見えるかを述べたか?
3. 欲求だけでなく制約も列挙したか?
4. エージェントに対して:タスクバジェットと停止基準は設定されているか?
5. temperature、top_p、top_kをAPIコールから削除したか?
5つすべてYES = 4.7の本当のアップサイドを得ている。それ以外 = 税金を払っている。
■ 大きな視点
「自然言語が新しいプログラミングだ」とインダストリーはChatGPT以来語ってきた。スキル不要。誰でもAIが使える。
Opus 4.7はその契約を再交渉した。新しいメッセージ:私たちの方言を話せ、さもなくばあいまい税を払え。
これは人々を怒らせるだろう。そうあるべきだ。「民主化」が約束だった。今、最高のプロンプトエンジニアは最も凝ったトリックを持つ人ではない——何かを求める前に何が欲しいかを知っている人だ。
4.7は契約変更だ。
適応した人が品質とコスト両方で勝つ。適応しない人はモデルを責める。
モデルのせいじゃない。あなたのせいだ。それが全ポイントだ。

claude-workflowai-thinkingagent-ops
Opus 4.7の使い方を根本から変えろ
♥ 109↻ 15
原文を表示 / Show original
opus 4.7 dropped yesterday. everyone is excited about it, but the ones who actually tested it are noticing real changes, and not all of them go in the right direction.
if you use it like opus 4.6, your results will be worse. and more expensive.
Suhail Kakar
@SuhailKakar
·
Apr 16
ANTHROPIC HAS RELEASED OPUS 4.7!!
i asked claude opus 4.7 to refactor a large codebase. 68 minutes, millions of tokens burned - it finished
nothing worked. app completely broken
but god it was beautiful
424
868
21K
816K
yeah i know it sounds insane. new model, better benchmarks, higher-res vision, self-verification, +13% on coding tasks, how can it produce worse outputs than the old one?
because 4.7 isn't a better 4.6. it's a different product with a different logic. the design choices anthropic made this time actively penalize vague, lazy prompts on purpose.
if you prompt 4.7 the way you prompted 4.6, you'll pay a tax, in money, in quality, or both. this article will show you how to fix this.
mechanisms that punish bad prompting
temperature, top_p, top_k
literally. set any non-default value on these sampling parameters in the api, and the request fails.
for non-devs: these are the knobs that let you make a model more "creative" (high temperature) or more deterministic (temperature=0). for years people used temperature=0 as a default, same prompt, same output, no surprises. it was the duct tape that held sloppy prompts together.
anthropic removed the duct tape. if your prompt is ambiguous, you can't stabilize the output with sampling anymore. you prompt precisely, or you get variance you can't control.
every codebase hardcoding temperature: 0 on the anthropic api is broken on 4.7 right now.
extended thinking budgets are gone.
adaptive thinking is the only mode.
before: you could tell the model "think for at most N tokens." cost ceiling, predictable.
now: the model decides how long to think. and it thinks longer when your prompt is ambiguous.
so a vague prompt makes the model overthink trying to reconstruct what you meant. you pay for that reasoning. you can't cap it. imprecision is now directly priced in.
xhigh effort is the new default on every plan
claude code used to default to "high" effort. on 4.7 it defaults to "xhigh" across pro, max, teams, and enterprise, more thinking tokens, higher cost, slightly better output on average.
which means every ambiguous prompt now costs more than it did yesterday. the baseline price of imprecision went up overnight, even before you touch anything.
task budgets
the agent now watches a clock on your prompt.
a task budget tells claude roughly how many tokens to spend across a full agentic loop, thinking, tool calls, tool results, final output. it's not a hard cap; the model sees a running countdown and uses it to prioritize and "finish the task gracefully as the budget is consumed."
here's the trap. if your prompt is fuzzy, the model spends early budget trying to figure out what you mean instead of doing the work. by the time it focuses, the countdown is low, output gets rushed or truncated.
the docs literally warn: "if the model is given a task budget that is too restrictive for a given task, it may complete the task less thoroughly or refuse to do the task entirely."
the "throw an agent at it and pray" era is over. imprecision doesn't blow through the budget, it eats the budget upfront, before any real work happens.
more literal instruction following
the model will NOT guess what you meant.
this one is the least flashy and the most important. straight from the official docs, in the "Behavior changes" section:
older claude versions filled in the blanks. if you asked for "a summary" without specifying format or length, the model picked something reasonable. 4.7 won't. it does exactly what you said, and if what you said was incomplete, what you get back is incomplete.
this is the punishment you'll feel without noticing. the output will technically match your prompt. it just won't match your intent, because you didn't spell out your intent, and the model has stopped covering for you.
the pattern
look at these five changes together. they all push in one direction: the cost of imprecision went up.
removed: the knobs that let you paper over bad prompts.
added: cost multipliers that scale with how ambiguous your input is.
enforced: a model that takes your prompt literally without interpretation.
anthropic converted prompt ambiguity into revenue. the imprecise now pay, in dollars, in output quality, or both. 4.7 is less a model upgrade than a repricing of your prompting habits.
how to stop being punished
good news: the fix is mostly free if you're willing to change habits.
here's what to actually do:
api parameters, updated defaults
omit temperature, top_p, top_k entirely from your requests. don't set them to defaults, remove them. any value triggers a 400.
turn thinking off for short tasks: classification, extraction, formatting, simple rewrites, tagging. adaptive thinking is overkill when there's nothing to reason about, and it's the biggest single source of invisible cost bleed on 4.7.
keep thinking on for: coding, multi-step reasoning, anything with trade-offs or ambiguity. this is where 4.7 earns its price
set task budgets explicitly on anything agentic. a decent starting rule: 2–3x the tokens a competent human engineer would need to do the task themselves. if the model burns through that budget, your prompt is the problem, not the model.
drop effort from xhigh to medium or low on trivial tasks. stop paying xhigh prices to summarize an email. xhigh is the right default for hard work, not for all work.
how to prompt
coding / engineering
be explicit about: the language and framework, the style or pattern expected, the tests or acceptance criteria, and, critically, what the model should NOT do.
instead of: "write a function to parse dates." try: "write a python function using dateutil that parses iso 8601 and us date formats, raises valueerror on ambiguous input, never falls back to today's date."
the second one takes twenty extra seconds to write. it saves you fifty dollars in token waste and three iterations.
analysis / reasoning
don't over-structure the reasoning itself, adaptive thinking is good at that. DO frame the output: who is this for, what decision does it inform, what format should it take, how long should it be.
the model can reason. it can't read your mind about what you'll do with the output.
agentic workflows (claude code, autonomous agents)
non-negotiable checklist:
task budget set explicitly
step-by-step plan in the system prompt
stop criteria defined ("stop when tests pass" beats "stop when done")
fallbacks defined ("if you can't find x, return y, don't guess")
4.7 agents without these will eat your budget and hand you mush.
creative / writing
paradoxically, this is where 4.7 is most forgiving. you can be looser with structure. but you still need: style references, tone examples, and a clear point of view.
"write a creative post about xxxx" gets you corporate pablum. "write like a pissed-off senior engineer who's tired of hearing about prompt engineering" gets you something worth posting.
long-context / rag
pre-structure your documents with clear anchors. tell the model which sections to prioritize. require citations in the instructions, not just the output format. 4.7's self-verification will silently downweight shaky sources if you let it, make that explicit instead of hoping.
the 4.6 → 4.7 migration checklist
before you send a prompt to 4.7, ask:
1. is my intent explicit, or am i hoping the model guesses?
2. have i stated what success looks like?
3. have i listed constraints, not just desires?
4. for agents: task budget and stop criteria set?
5. have i removed temperature, top_p, top_k from my api call?
five yeses = you're getting 4.7's actual upside. anything less = you're paying the tax.
the bigger point
there's a story the industry has been telling since chatgpt: "natural language is the new programming." no skills required. anyone can use ai.
opus 4.7 just renegotiated that deal. the new message: speak our dialect, or pay the ambiguity tax.
this will upset people. it should. "democratization" was the promise. now the best prompt engineer isn't the person with the fanciest tricks, it's the one who knows what they want before they ask.
4.7 is a contract change.
the ones who adapt win on both quality and cost. the ones who don't will blame the model.
it's not the model. it's you. that's the whole point.