Opus 4.7の使い方を根本から変えろ

Opus 4.7が昨日リリースされた。みんな興奮しているが、実際にテストした人たちはリアルな変化に気づいていて、そのすべてが良い方向というわけではない。 4.6と同じ使い方をすれば、結果は悪くなる。そしてコストも上がる。 Suhail Kakar @SuhailKakar・4月16日 ANTHROPICがOPUS 4.7をリリースした！！大規模なコードベースのリファクタリングをClaude Opus 4.7に依頼した。68分、数百万トークンを消費して完了した。何も動かなかった。アプリは完全に壊れた。でも神のように美しかった 424 868 21K 816K おかしな話に聞こえるのはわかっている。新しいモデル、より良いベンチマーク、高解像度ビジョン、自己検証、コーディングタスクで+13%、それなのに旧バージョンより悪い出力を出せるのか？なぜなら4.7は「より良い4.6」ではないからだ。Anthropicが今回行ったデザイン上の選択は、曖昧で雑なプロンプトに意図的にペナルティを課している。 4.6をプロンプトした方法で4.7をプロンプトすれば、金銭的にも品質的にも「税金」を支払うことになる。この記事はその修正方法を示す。 ■ 悪いプロンプティングを罰するメカニズム【temperature、top_p、top_k】文字通りそうだ。APIでこれらのサンプリングパラメータに非デフォルト値を設定すると、リクエストが失敗する。非開発者向けに説明すると：これらはモデルをより「創造的」（高temperature）またはより決定論的（temperature=0）にするつまみだ。長年、people はtemperature=0をデフォルトとして使ってきた——同じプロンプト、同じ出力、サプライズなし。それが雑なプロンプトを支えるガムテープだった。 Anthropicはそのガムテープを取り除いた。プロンプトが曖昧なら、もうサンプリングで出力を安定させることはできない。正確にプロンプトするか、制御できない分散を受け入れるかだ。 Anthropic APIでtemperature: 0をハードコードしているすべてのコードベースは、今すぐ4.7で壊れている。【Extended thinking budgetsが廃止。Adaptive thinkingが唯一のモード】以前はモデルに「最大Nトークンで考えろ」と指定できた。コスト上限があり、予測可能だった。今は：モデルが考える時間を自分で決める。そしてプロンプトが曖昧だと長く考える。つまり曖昧なプロンプトはモデルにあなたの意図を推測させるために過剰な思考をさせる。その推論コストはあなたが払う。上限は設定できない。不精確さは今や直接的にコスト化されている。【xhighエフォートが全プランのデフォルトに】 Claude CodeはかつてデフォルトがHighだった。4.7ではPro、Max、Teams、Enterpriseをまたいでデフォルトがxhighになる——より多くの思考トークン、より高いコスト、平均的にはわずかに良い出力。つまりすべての曖昧なプロンプトが昨日より高くなった。不精確さの基本価格が一晩で上がった、何も変更しなくてもだ。【Task Budgets（タスクバジェット）】エージェントはあなたのプロンプトのクロックを監視するようになった。タスクバジェットはClaudeに思考・ツール呼び出し・ツール結果・最終出力を含むエージェントループ全体でどれくらいトークンを費やすかを大まかに伝える。ハードキャップではなく、モデルは実行中のカウントダウンを見てタスクを優先順位付けし「バジェットが消費されながらもグレースフルにタスクを完了」させる。罠はこれだ。プロンプトが曖昧だと、モデルはあなたの意図を解釈するために早期バジェットを費やす。集中できた頃にはカウントダウンが少なく、出力が急ぎすぎたり切り捨てられたりする。ドキュメントは文字通りこう警告している：「モデルに与えられたタスクバジェットが特定のタスクに対して制限的すぎると、モデルはタスクを不完全に完了するか、タスクの完了を拒否する可能性があります」「エージェントに投げて祈る」時代は終わった。不精確さはバジェットを吹き飛ばすのではなく、実際の作業が始まる前にバジェットを食い尽くす。【より文字通りの指示遵守】モデルはあなたの意図を推測しない。これが最も地味で最も重要だ。公式ドキュメントの「Behavior changes」セクションからそのまま：旧バージョンのClaudeは空白を埋めてくれた。「要約」を形式や長さを指定せずに求めると、モデルは妥当なものを選んだ。4.7はそうしない。あなたが言ったことを正確に実行し、あなたが言ったことが不完全なら、返ってくるものも不完全だ。これが気づかれずに感じるペナルティだ。出力はプロンプトに技術的に一致している。ただあなたの意図とは一致していない——あなたが意図を明示せず、モデルがそれを補ってくれるのをやめたからだ。 ■ パターンこれら5つの変化を一緒に見ると、すべて同じ方向に進んでいる：不精確さのコストが上がった。削除：雑なプロンプトを覆い隠せるつまみ追加：入力の曖昧さに応じてスケールするコスト乗数適用：解釈なしにプロンプトを文字通り受け取るモデル Anthropicはプロンプトの曖昧さを収益に変換した。不精確な人は金銭的に、出力品質的に、またはその両方で支払う。4.7はモデルのアップグレードというよりも、あなたのプロンプト習慣の再値付けだ。 ■ ペナルティを受けないために APIパラメータ、更新されたデフォルト temperature、top_p、top_kをリクエストから完全に省略する。デフォルト値に設定するのではなく、削除する。値を設定すると400エラーになる。短いタスクのthinkingをオフに：分類、抽出、フォーマット、シンプルな書き直し、タグ付け。Adaptive thinkingはそこに推論することが何もない時にはオーバーキルで、4.7でのコスト漏れの最大の単一原因だ。コーディング、複数ステップの推論、トレードオフや曖昧さのあるものにはthinkingをオンのまま：ここが4.7がその価格に見合う場所だ。エージェント的なものにはタスクバジェットを明示的に設定する。良い出発点のルール：有能な人間エンジニアが自分でタスクをこなすのに必要なトークンの2〜3倍。モデルがそのバジェットを使い切るなら、プロンプトが問題でモデルではない。些細なタスクのエフォートをxhighからmediumまたはlowに下げる。メールを要約するのにxhigh価格を払うのをやめる。xhighはハードな作業のための正しいデフォルトであり、すべての作業のためではない。 ■ プロンプトの仕方【コーディング/エンジニアリング】明示的にすべきこと：言語とフレームワーク、期待するスタイルやパターン、テストや受け入れ基準、そして重要なことに、モデルが「すべきでないこと」。 × 「日付をパースする関数を書いて」 ○ 「dateutilを使ってISO 8601と米国日付フォーマットをパースし、曖昧な入力にはValueErrorを発生させ、今日の日付にフォールバックしないPython関数を書いて」 2つ目は書くのに20秒余分にかかる。50ドルのトークン無駄遣いと3回の反復を節約できる。【分析/推論】推論自体を過剰に構造化しない——Adaptive thinkingはそれが得意だ。出力をフレーミングすること：誰のためのものか、どんな決定に役立つか、どんな形式を取るべきか、どれくらい長くすべきか。モデルは推論できる。出力をどう使うかを読み取ることはできない。【エージェントワークフロー（Claude Code、自律エージェント）】必須チェックリスト：・タスクバジェットを明示的に設定・システムプロンプトにステップバイステップの計画・停止基準の定義（「テストがパスしたら停止」は「完了したら停止」より良い）・フォールバックの定義（「xが見つからなければyを返せ、推測するな」）これらなしの4.7エージェントはバジェットを食い尽くしてゴミを渡してくれる。【クリエイティブ/ライティング】逆説的に、4.7が最も許容度が高い場所だ。構造を緩めにできる。ただしスタイルの参考例、トーンの例、明確な視点は必要だ。「xxxxについてのクリエイティブな投稿を書いて」はコーポレート当たり障りのないものを出す。「プロンプトエンジニアリングについて聞かされるのに飽き飽きした怒ったシニアエンジニアのように書いて」は投稿する価値のあるものを出す。【長コンテキスト/RAG】明確なアンカーでドキュメントを事前構造化する。どのセクションを優先するかモデルに伝える。出力フォーマットだけでなく指示の中に引用を要求する。4.7の自己検証は不確かなソースを暗黙的に低く評価する——希望するのではなく明示化しろ。 ■ 4.6→4.7マイグレーションチェックリスト 4.7にプロンプトを送る前に確認： 1. 意図は明示的か、それとも推測を期待しているか？ 2. 成功がどう見えるかを述べたか？ 3. 欲求だけでなく制約も列挙したか？ 4. エージェントに対して：タスクバジェットと停止基準は設定されているか？ 5. temperature、top_p、top_kをAPIコールから削除したか？ 5つすべてYES = 4.7の本当のアップサイドを得ている。それ以外 = 税金を払っている。 ■ 大きな視点「自然言語が新しいプログラミングだ」とインダストリーはChatGPT以来語ってきた。スキル不要。誰でもAIが使える。 Opus 4.7はその契約を再交渉した。新しいメッセージ：私たちの方言を話せ、さもなくばあいまい税を払え。これは人々を怒らせるだろう。そうあるべきだ。「民主化」が約束だった。今、最高のプロンプトエンジニアは最も凝ったトリックを持つ人ではない——何かを求める前に何が欲しいかを知っている人だ。 4.7は契約変更だ。適応した人が品質とコスト両方で勝つ。適応しない人はモデルを責める。モデルのせいじゃない。あなたのせいだ。それが全ポイントだ。

Opus 4.7の使い方を根本から変えろ

AIFCC — AI Fluent CxO Club