LLMのprompt caching完全解説

LLMにおけるprompt cachingの完全解説 AIエージェントがステップを踏むたびに、会話履歴全体をLLMに送り返している。システム指示、ツール定義、3ターン前に処理済みのプロジェクトコンテキストもすべて含めて。毎回、再読み込み・再処理・再課金される。長時間稼働するエージェントワークフローにおいて、この冗長な計算がAIインフラ全体で最も高コストな項目になることが多い。 20,000トークンのシステムプロンプトが50ターンにわたって実行されると、100万トークン分の冗長計算が定価で課金され、新たな価値はゼロ。そのコストはすべてのユーザー、すべてのセッションにわたって積み重なる。解決策はprompt cachingだ。ただし使いこなすには、内部で何が起きているかを理解する必要がある。 ## 静的コンテキストと動的コンテキストプロンプトを最適化する前に、何が変化し何が変化しないかを理解する必要がある。すべてのエージェントリクエストには、根本的に異なる2つの部分がある： - ターンをまたいで同一のままの**静的プレフィックス**：システム指示、ツール定義、プロジェクトコンテキスト、行動ガイドライン - ターンごとに成長する**動的サフィックス**：ユーザーメッセージ、アシスタント応答、ツール出力、ターミナルの観察結果この分割がprompt cachingを可能にする。インフラは静的プレフィックスの数学的状態を保存するため、同じプレフィックスを共有する後続リクエストは計算を丸ごとスキップして、メモリから読み込める。これを内面化すると、この記事のすべての設計判断が自明になる。 ## KVキャッシュはどう機能するのか？キャッシングが非常に効果的な理由を理解するには、トランスフォーマーがプロンプトを処理する際に実際に何をしているかを知る必要がある。すべてのLLM推論リクエストには2つのフェーズがある： **プレフィルフェーズ**：入力プロンプト全体を処理する。コンテキスト内のすべてのトークンに対して密な行列乗算を実行し、モデルの内部表現を構築する。これは計算負荷が高く高コストだ。 **デコードフェーズ**：トークンを1つずつ生成する。新しいトークンがシーケンスに追加されるたびに、モデルが次を予測する。このフェーズは重い計算よりも過去の状態を読み込むことが多いため、メモリバウンドだ。プレフィルフェーズでは、トランスフォーマーが各トークンに対してQuery、Key、Valueの3つのベクトルを計算する。アテンション機構はこれらを使って各トークンが他のすべてのトークンとどう関連するかを決定する。特定のトークンのKeyとValueベクトルは、そのトークン以前のトークンのみに依存し、一度計算されると変わることはない。キャッシングなしでは、これらのKeyとValueのテンソルはリクエストごとに破棄され、次のリクエストが最初から再計算する。20,000トークンのプレフィックスなら、再度行う必要のなかった20,000トークン分のアテンション計算だ。 KVキャッシュはこれらのテンソルをトークンシーケンスの暗号ハッシュでインデックス付けして推論サーバーに永続化することで解決する。同じプレフィックスを持つ新しいリクエストが来ると、ハッシュが一致し、テンソルがメモリから読み込まれ、それらのトークンのプレフィルフェーズの計算は完全にスキップされる。これにより計算複雑度が生成トークンあたりO(n²)からO(n)に低下する。20,000トークンのプレフィックスが50ターンにわたって繰り返されると、これは莫大な削減だ。 ## コスト構造この価格構造が設計判断を決定的に重要なものにする。キャッシュ読み込みは基本入力価格の0.1倍、つまりキャッシュされたトークンに90%の割引。キャッシュ書き込みは1.25倍、KVテンソルの保存に25%のプレミアム。1時間の拡張キャッシングは2.0倍。この計算はキャッシュヒット率が高く保たれる場合のみ成立する。それがどんな見た目かの最高の実稼働例がClaude Codeだ。 ## 30分のコーディングセッション with Claude Code Claude Codeはひとつの目的だけに設計されている：キャッシュをホットに保つ。実際の30分コーディングセッションが課金の観点からどう見えるか： **0分**：Claude CodeはシステムプロンプトとツールとCLAUDE.mdファイルを読み込む。このペイロードは20,000トークンを超え、すべてのトークンが新規なので、セッション全体で最もコストがかかる瞬間だ。ただしこのコストは一度だけ払う。 **1〜5分**：指示を出すと、Claude CodeはExploreサブエージェントをコードベースのナビゲート、ファイルオープン、grepコマンドの実行に派遣する。これらはすべて動的サフィックスに追加される。しかし20,000トークンの静的プレフィックスは今や$3.00/MTokではなく$0.30/MTokでキャッシュから読み込まれている。 **6〜15分**：Planサブエージェントは生の結果ではなく要約されたブリーフを受け取る。生の出力を渡すと動的サフィックスが不必要に膨らむからだ。実装計画を作成し、承認して、Claude Codeが変更を開始する。毎ターン静的プレフィックスをキャッシュから読み込み、ヒット率は90%を超え、各アクセスがTTLをリセットしてキャッシュをホットに保つ。 **16〜25分**：変更を要求すると、さらなるツール呼び出し、ターミナル出力、動的サフィックスにコンテキストが蓄積する。セッションはすでに数十万トークンを処理したが、毎ターン20,000トークンの基盤をキャッシュから読み込んでいる。 **28分**：ターミナルで/costを実行する。キャッシュなしなら、Sonnet 4.5レートで200万トークンは$6.00。92%の効率でキャッシュが動作したことで、184万トークンがキャッシュ読み込みとなり、合計コストは$1.15。1タスクで81%の削減だ。これがホットキャッシュの見た目だ。静的基盤は一度払えば、その後は無料で読める。動的テールだけが課金される。 ## ハッシュベースキャッシングの脆弱性 prompt cachingで最も直感に反することがある：「1 + 2 = 3」は機能するが「2 + 1」はキャッシュミスだ。インフラは最初からトークンシーケンス全体をハッシュする。そのシーケンスの何かが変わると、2つの要素の順序だけが変わっても、ハッシュが変わりプレフィックス全体が定価で再計算される。これは些細な実装詳細ではない。Claude Codeのすべての設計判断が対処するように設計された中心的制約だ。実稼働でキャッシュを破壊した実例： - システムプロンプトに注入されたタイムスタンプがリクエストごとにユニークなハッシュを生成した - リクエスト間でツールスキーマのキーを異なる方法でソートするJSONシリアライザーがプレフィックスを無効化した - セッション途中でパラメータが更新されたAgentToolが20,000トークンのキャッシュ全体を消去したここから3つのルールが導かれる： 1. **セッション中にツールを変更しない**：ツール定義はキャッシュされたプレフィックスの一部なので、ツールの追加・削除は下流のすべてを無効化する 2. **セッション中にモデルを切り替えない**：キャッシュはモデル固有なので、会話の途中で安価なモデルに切り替えるとキャッシュ全体の再構築が必要になる 3. **状態更新のためにプレフィックスを変更しない**：システムプロンプトを編集する代わりに、Claude Codeはプレフィックスを手つかずのままにするために次のユーザーメッセージにリマインダータグを追加する ## 自分のエージェントへの応用同じルールは、Claude Codeを使う場合でも自分でゼロからエージェントを構築する場合でも適用される。プロンプトをこの順序で構成する： 1. トップにシステム指示と行動ルール。セッション中に変更しない 2. すべてのツール定義を最初にロード。追加・削除しない 3. 次に取得したコンテキストと参照ドキュメント。セッション期間中安定させる 4. 一番下に会話履歴とツール出力。これが動的サフィックスだ AnthropicのAPIでauto-cachingを有効にすると、会話が成長するにつれてキャッシュのブレークポイントが自動的に進む。なければトークン境界を手動で追跡する必要があり、間違った境界はキャッシュを完全に見逃すことを意味する。コンテキスト制限に近づいたときのコンテキスト圧縮には、キャッシュセーフのフォーキングを使う。同じシステムプロンプト、ツール、会話履歴を保ち、圧縮指示を新しいメッセージとして追加する。キャッシュされたプレフィックスが再利用され、課金される新しいトークンは圧縮指示のみだ。キャッシングが機能しているか確認するには、すべてのAPIレスポンスで次の3つのフィールドを監視する： - `cache_creation_input_tokens`：キャッシュに書き込まれたトークン - `cache_read_input_tokens`：キャッシュから提供されたトークン - `input_tokens`：キャッシュなしで処理されたトークンキャッシュ効率は `cache_read_input_tokens / (cache_read_input_tokens + cache_creation_input_tokens)` だ。稼働率と同じように追跡する。 ## まとめ prompt cachingはオンにする機能ではない。設計の規律だ。コアのアイデアはシンプル：静的コンテンツが上部に、動的コンテンツが下部で成長するようにプロンプトを構成する。インフラがプレフィックスをハッシュし、KVテンソルを保存し、後続の読み込みごとに90%の割引を与える。しかし規律は詳細にある。システムプロンプトにタイムスタンプを注入しない、ツール定義をシャッフルしない、セッション中にモデルを切り替えない、キャッシュのブレークポイントより上流の何も変更しない。 Claude Codeはこれが大規模にどう見えるかを示している。92%のキャッシュヒット率と81%のコスト削減。エージェントを構築していてprompt cachingを中心に設計していないなら、利益のほとんどをテーブルに置いてきていることになる。

LLMのprompt caching完全解説

AIFCC — AI Fluent CxO Club