プロンプトキャッシュを明快に解説：Claudeが92%キャッシュヒット率を達成する仕組み

## Claude が92%キャッシュヒット率を達成するケーススタディ AIエージェントが1ステップを踏むたびに、税金を支払います。ゼロから全てを再読み込みします。システム指示。ツール定義。3ターン前にすでにロードしたプロジェクトコンテキスト。そのすべてを。毎ターン。これがコンテキスト税です。長時間実行するエージェンティックワークフローにとって、これはAIインフラ全体の中で最もコストのかかるラインアイテムであることが多いです。数式にするとこうです：20,000トークンのシステムプロンプトを50ターンにわたって実行すると、フル価格で請求され新たな価値をゼロ生み出さない100万トークンの冗長な計算が発生します。解決策はプロンプトキャッシュです。しかし上手に使うには、内部で実際に何が起きているかを理解する必要があります。 ## 変化するものと変化しないものから始める何かを最適化する前に、エージェントのプロンプト（コンテキスト）の構造について明確に考える必要があります。エージェントが送るすべてのリクエストには、根本的に異なる2つの部分があります： **静的プレフィックス**：システム指示、ツール定義、プロジェクトコンテキスト、行動ガイドラインを含みます。このコンテンツはセッションのすべてのターンで同一です。 **動的テール**：ユーザーメッセージ、ツール出力、ターミナル観測結果。これはすべてのリクエストに固有で、会話が進むにつれて成長します。この区別がすべてです。静的プレフィックスは、無意味に再計算し続けているコストのかかる部分です。動的テールは、実際に新鮮な計算が必要な唯一の部分です。プロンプトキャッシュは、静的プレフィックスの数学的状態を保存することで機能し、将来のリクエストがその再計算を完全にスキップできるようにします。そのプレフィックスを1回処理するコストを払います。その後のすべてのターンはメモリから読み込みます。 ## なぜこれが機能するか：トランスフォーマーが実際に何をするかキャッシュがなぜこれほど効果的なのかを本当に理解するには、プロンプトを読み込むときにモデルの内部で何が起きているかを理解する必要があります。すべてのLLM推論リクエストには2つのフェーズがあります： ### フェーズ1：プリフィルここでモデルがフル入力プロンプトを処理します。これはコンピュートバウンドで、コンテキスト内のすべてのトークンにわたって密な行列乗算を実行します。モデルはすべてを読み込み、その表現を構築します。これが遅く、コストのかかるフェーズです。 ### フェーズ2：デコードここでモデルが出力トークンを1つずつ生成します。これは、モデルが重い計算を実行するよりも以前に計算された状態を読み込む時間が大半を占めるため、コンピュートバウンドではなくメモリバウンドです。プリフィルフェーズ中に、トランスフォーマーは各トークンに対して3つのベクトルを構築します：Query、Key、Valueです。アテンションメカニズムはこれらを使って、各トークンがシーケンス内の他のすべてのトークンとどう関係するかを把握します。ここで重要な洞察があります：KeyとValueのベクトルは、それより前に来るトークンにのみ依存します。特定のプレフィックスに対して一度計算されると、変更する必要は二度とありません。以下の図はこれを視覚的に説明しています：キャッシュなしでは、それらのKey-Valueテンソルはリクエストが完了した瞬間に捨てられます。次のリクエストはゼロから始まり、すべての20,000トークンに対して再計算します。 KVキャッシュはそれらのテンソルを保存することでこれを解決します。インフラはそれらを推論サーバー上に保持し、入力テキストの暗号ハッシュによってインデックスします。同じプレフィックスを持つ新しいリクエストが来ると、ハッシュが一致し、テンソルがただちに取得され、モデルはすべての計算をスキップします。これにより生成されるトークンごとの計算複雑性がO(n²)からO(n)に下がります。50ターンにわたって繰り返される20,000トークンのプレフィックスでは、これは莫大な削減です。 ## 経済性価格構造を理解することが、このアーキテクチャの決断をこれほど重要にします。 Anthropicがモデルファミリー全体でキャッシュの価格を設定している方法がここにあります：記憶すべき3つの数字： - キャッシュリードのコストはベース入力価格の10%、キャッシュから読み込まれるすべてのトークンが90%割引 - キャッシュライトのコストはベース入力価格より25%高く、KVテンソルを保存するための小さなプレミアム - 延長1時間キャッシングはベース価格の2倍数式はキャッシュヒット率が高い状態を維持する場合にのみ機能します。それが実際にどのように見えるか、最高の実世界例を見てみましょう。 ## Claude Code：30分セッションのウォークスルー Claude Codeはまったく1つの目標を中心に構築されています：キャッシュを温かく保つこと。具体的にそれが何を意味するかを理解するために、典型的な30分のコーディングセッションがどのように見えるかをウォークスルーして、何が請求され何が請求されないかを正確に追跡しましょう。 ### 0分：セッション開始 Claude Codeがシステムプロンプトとツール定義をロードします。プロジェクトルートにあるCLAUDE.mdファイルも読み込み、コードベースと規約を説明します。このペイロードは通常20,000トークンを超えます。これがセッション全体で最もコストのかかる瞬間です。すべてのトークンが新しい。しかしこのコストを払うのは1回だけです。 ### 1〜5分：最初のコマンド「認証モジュールを見て改善案を提案して」といった最初の指示を入力します。 Claude CodeはExplore Subagentを送り出します。コードベースをナビゲートし、ファイルを開き、grepコマンドを実行し、関連コードの全体像を構築します。これらすべてが動的テールに追記されます。 20,000トークンの静的基盤？すでにキャッシュにあります。$3.00/MTokの代わりに$0.30/MTokで読み込まれています。新しいツール出力とメッセージにのみお金を払っています。 ### 6〜15分：ディープワーク Plan Subagentが Explore Subagentからの結果を受け取ります。生の結果をそのまま渡す代わりに（これにより動的テールが不必要に膨張する）、Claude Codeは簡潔なサマリーを渡します。これによりサフィックスを管理可能な状態に保ち、キャッシュを効率的に維持します。プランナーが構造化された実装プランを生成します。レビューして承認すると、Claude Codeが変更を加え始めます。このループの各ターンで20,000トークンのプレフィックスをキャッシュから読み込みます。各キャッシュヒットはTTLをリセットし、将来のターンのためにキャッシュを温かく保ちます。 ### 16〜25分：イテレーション調整を求めます。Claude Codeがアプローチを修正します。さらにツールコール、さらにターミナル出力。動的テールは成長していますが、これはセッション内の新しい固有のコンテンツのみを表しています。この時点で、セッションは合計で数十万トークンを処理しています。しかし20,000トークンの基盤は毎ターンキャッシュから読み込まれています。 ### 28分：/costを実行キャッシュなしでは、このようなセッションは簡単に200万トークンを超えます。Sonnet 4.5レートで約$6.00です。高効率でキャッシュを実行すると： - トークンの大半はキャッシュから$0.30/MTokで読み込まれます - 新しい動的テールトークンのみが新鮮に計算されます実際には、単一タスクで80%以上のコスト削減が期待できます。それをすべてのユーザー、毎日に掛け合わせます。セッションが続くにつれたシステムプロンプトレイアウトのサマリーはこうです： ## すべてを壊すルールプロンプトキャッシュについて最も直感に反することがここにあります。 1 + 2 = 3。しかし 2 + 1 はキャッシュミスです。インフラはプロンプトをハッシュします。ハッシュは暗号学の識別子です。ハッシュは、その順序が変わると変わります。2つの要素の順序が異なる場合でも。キャッシュが空になります。プレフィックス全体がフル価格で再計算されます。これから導かれる3つのルール： - セッション中にツールを追加したり削除したりしない。キャッシュされたプレフィックスにはツールが含まれます。ツールを変えると、その後のすべてが無意味になります。 - セッション中にモデルを切り替えない。キャッシュはモデル固有です。会話の途中で安いモデルに切り替えると、キャッシュ全体の再構築が必要になります。 - 状態を変えるためにプレフィックスを変えない。代わりにClaude Codeは、次のユーザーメッセージにシステムを思い出させるタグを追加します。プレフィックスは変わりません。 ## あなたにとっての意味上記のすべてがClaude Codeがキャッシュを処理する方法を説明しています。同じルールが自分のエージェントを作る場合にも適用されます。プロンプトの構造化方法はこうです： - 上部にシステム指示とルール。中途半端に変えない。 - 必要なすべてのツールを事前にロードする。追加したり取り除いたりしない。 - その後に取得したコンテキストとドキュメント。期間中は静的。 - 下部に会話の履歴とツールの出力。オートキャッシングをオンにすると、会話が進むにつれてブレイクポイントが自動的に前進します。 Claude Codeが自身のキャッシュを管理しています。AnthropicはちょうどAPIにオートキャッシングを追加したので、自分のエージェントにも同じことができます。オートキャッシングなしでは、トークンの境界がどこにあるかを覚えておく必要がありました。誤った境界はキャッシュに届かないことを意味しました。コンテキストリミットに対してコンパクト化するためにキャッシュセーフなフォーキングを使います。同じシステムプロンプト、ツール、会話を使い、新しいメッセージとしてコンパクト化を追加します。コンパクト化コールは直前のものとほぼ同じに見えます。キャッシュされたプレフィックスが再び使用されます。新しいものとして請求されるのはコンパクト化指示だけです。 APIが機能しているか確認するには、すべてのレスポンスの以下の3つのフィールドを監視してください： - `cache_creation_input_tokens`：メモリに格納されたトークン - `cache_read_input_tokens`：メモリから読み込まれたトークン - `input_tokens`：通常通り処理されたトークンキャッシュ効率スコアは、生成トークン数に対する読み込みトークン数です。アップタイムを監視するのと同じように監視してください。 ## 重要なポイントプロンプトキャッシュはオンにする機能ではありません。周囲に構築するアーキテクチャ上の規律です。 Claude Codeは、それを大規模に実現したときにそのフィールドがどのように見えるかの最良の例です。キャッシュヒット率92%。コスト削減81%。これがエージェントを作るためのブループリントです。税金を無視することはできません。それは存在します。重要なのは、それを払い続けるか、取り除くかだけです。 ## 参考資料： https://www.dailydoseofds.com/p/kv-caching-in-llms-explained-visually/ https://x.com/trq212/status/2024574133011673516?s=20 https://manus.im/blog/Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus

プロンプトキャッシュを明快に解説：Claudeが92%キャッシュヒット率を達成する仕組み

AIFCC — AI Fluent CxO Club