同じ前提文書を毎回 API に送ると都度フルコストが発生します。Prompt Caching はサーバ側に内部状態を保持し、再利用時のトークン課金を抑えます。
同じ前提文書を毎回 API に送ると都度フルコストが発生します。Prompt Caching はサーバ側に内部状態を保持し、再利用時のトークン課金を抑えます。
Claude Code など長文指示書を持つエージェントを使っていると月の請求で気づきます。Anthropic API の `cache_control` で保持位置を指定します。
LLM API の繰り返し入力をサーバ側で再利用してコストを削減します。
キャッシュヒット時の入力トークン課金が約 1/10 になります。
Anthropic は `cache_control` の明示が要り、設計次第で効果が変わります。
長文 System Prompt を持つエージェント運用で効果が出ます。
書き込みと読み出しで課金率が異なる点を先に確認します。
Context Engineering、System Prompt、Token