id: G-19(誌面表示: G-19) · 物理ページ: 456–457(pages=2) · category: term_llm · figure_type: before_after · status: ready · evaluation_date: 2026-04-30
tagline 45/25-45何を 75/60-200どこで 82/60-200会話例 44/25-50見1 34/15-40見2 30/15-40見3 44/15-40 ↑4見4 33/15-40見5 27/15-40見6 37/15-50
← G-18 Chain of Thought 目次 G-20 CLAUDE.md →
バイブ特有
456

Prompt Caching

プロンプト キャッシング
同じプロンプト断片をサーバ側で再利用し、料金とレイテンシを下げる LLM API の仕組みです。
体験区分:少しだけ触った 推奨読者レベル:Level 3-4

何をしてくれるか

同じ前提文書を毎回 API に送ると都度フルコストが発生します。Prompt Caching はサーバ側に内部状態を保持し、再利用時のトークン課金を抑えます。

どこで出会うか

Claude Code など長文指示書を持つエージェントを使っていると月の請求で気づきます。Anthropic API の `cache_control` で保持位置を指定します。

Before / After
2026.04·ready
「CLAUDE.md にキャッシュブレークポイントを置いたら、月額が 30% 下がりました。」
Prompt Cachingの見方
457
この用語の見どころ
1
役割

LLM API の繰り返し入力をサーバ側で再利用してコストを削減します。

2
うれしさ

キャッシュヒット時の入力トークン課金が約 1/10 になります。

3
注意点

Anthropic は `cache_control` の明示が要り、設計次第で効果が変わります。

4
どこで役立つか

長文 System Prompt を持つエージェント運用で効果が出ます。

5
はじめに

書き込みと読み出しで課金率が異なる点を先に確認します。

6
深掘り先

Context Engineering、System Prompt、Token

非エンジニアのつまずき
  • 最近聞いたばかりで、Serena MCP がこれに当たるかも(要確認)。
  • Claude Code 初期に「トークン効率を上げる」と話題になっていたのはキャッシュの話だと思います。
  • 業務では意識しないが、個人で遊ぶと気になり始める部分です。
私のコメント
  • 第一印象:Serena MCP でキャッシュしてコストが下がる話が流行っていました。
  • 良い点:トークン効率が上がります。
  • ダメな点:今は CC ハーネスに組み込まれ、MCP で使う必要はないと思います。
  • 誰向けか:歴史的な文脈で見るくらいの位置づけです。
開発フローでの位置
指示書の設計
ブレークポイント設定
動作確認
コスト計測
運用最適化
関連用語
G-19·term_llm
バイブコーディング図鑑