CLAUDE LABEN
MODEL — Claude Opus 4.8がコーディング・エージェント・専門業務で性能向上。長時間タスクの一貫性が強みですPLATFORM — Developer Platformにcode execution・MCP connector・Files API・最大1時間のプロンプトキャッシュが追加されましたSANDBOX — Claude Managed Agentsが自前サンドボックス+プライベートMCPサーバー接続に対応(Cloudflare/Daytona/Modal/Vercel等)MODEL — Fable 5(100万トークン文脈・常時アダプティブ思考)は6/12の米輸出管理指令でアクセス停止となりましたLINEUP — 主力はOpus 4.8・Sonnet 4.6・Haiku 4.5。用途に応じて使い分けられますMCP — エンタープライズ管理型MCPコネクタ(Okta連携)でゼロタッチ利用が可能です(Team/Enterpriseベータ)MODEL — Claude Opus 4.8がコーディング・エージェント・専門業務で性能向上。長時間タスクの一貫性が強みですPLATFORM — Developer Platformにcode execution・MCP connector・Files API・最大1時間のプロンプトキャッシュが追加されましたSANDBOX — Claude Managed Agentsが自前サンドボックス+プライベートMCPサーバー接続に対応(Cloudflare/Daytona/Modal/Vercel等)MODEL — Fable 5(100万トークン文脈・常時アダプティブ思考)は6/12の米輸出管理指令でアクセス停止となりましたLINEUP — 主力はOpus 4.8・Sonnet 4.6・Haiku 4.5。用途に応じて使い分けられますMCP — エンタープライズ管理型MCPコネクタ(Okta連携)でゼロタッチ利用が可能です(Team/Enterpriseベータ)
記事一覧/API & SDK
API & SDK/2026-06-22上級

Claude API のコスト計算が請求と合わないとき — usage の4トークンバケットを正しく会計する

プロンプトキャッシュを有効にすると、自前のコスト集計とコンソールの請求額がずれます。usage が返す4つのトークンバケットを重み付きで会計し、突合できる台帳を組む方法をまとめました。

Claude API82コスト管理10プロンプトキャッシュ運用9

プレミアム記事

個人開発で複数アプリの日次ダイジェストを Claude で回しているのですが、ある月、自前のコスト集計とコンソールに表示された請求額が一割ほど食い違っていました。

私自身、ログを何度も追いました。リクエスト数もトークン数も間違っていません。それでも合わない。

原因はひとつでした。コストを input_tokens + output_tokens だけで計算していたのです。プロンプトキャッシュを有効にした瞬間、この素朴な式は静かに壊れます。

input_tokens にキャッシュ分は入っていない

最初の誤解はここでした。

usage オブジェクトは、入力トークンを役割ごとに分けて返します。キャッシュから読まれたトークンは input_tokens には含まれません。別のフィールドに振り分けられます。

# 実際の usage の形(キャッシュ有効時)
usage = {
    "input_tokens": 412,                  # キャッシュにヒットしなかった通常入力のみ
    "cache_creation_input_tokens": 18500, # キャッシュへの書き込み(高い)
    "cache_read_input_tokens": 17800,     # キャッシュからの読み込み(安い)
    "output_tokens": 1240,
}

つまり、長いシステムプロンプトをキャッシュしている場合、その本体は input_tokens には一切現れません。input_tokens だけを見て課金額を出すと、キャッシュに乗っている数万トークンを丸ごと見落とします。

私の場合、ダイジェストの共通プロンプトが約 18,000 トークン。これがコールドスタートのたびに cache_creation として書き込まれ、その後のコールで cache_read として読まれていました。素朴な式はこの両方を無視していたわけです。

4つのバケットには、それぞれ別の単価がかかる

会計を合わせる鍵は、4つのバケットが同じ単価ではないと理解することです。

キャッシュの読み書きは、基本入力単価に対する倍率で課金されます。倍率は安定していて、価格改定があっても比率自体はめったに変わりません。

バケットusage フィールド基本入力単価に対する倍率
通常入力input_tokens1.0×
キャッシュ書き込み(5分TTL)cache_creation_input_tokens1.25×
キャッシュ書き込み(1時間TTL)cache_creation_input_tokens2.0×
キャッシュ読み込みcache_read_input_tokens0.1×
出力output_tokens出力単価(別系統)

読み込みは基本入力の十分の一。書き込みは 1.25 倍から 2 倍。ここを一律で扱うと、キャッシュが効いているコールほど大きくずれます。読みを高く見積もれば過大計上、書きを基本単価で見積もれば過小計上になります。

ここまでお読みいただきありがとうございます。

この記事の続きを読む

この先には、実装コードやベンチマーク結果など、実務でお役に立てる内容をご用意しています。このサイトは広告を掲載しておらず、サーバーや開発にかかる費用はメンバーの皆様のご支援で成り立っています。もしお役に立てていましたら、ご支援いただけますと大変ありがたいです。

この記事で得られること
usage の input_tokens にはキャッシュ分が含まれない、という見落としやすい仕様の整理
cache_creation(書き込み)と cache_read(読み込み)を正しい倍率で会計する Python 実装
1コール=1台帳行として記録し、月次でコンソールの請求と突合する手順
Stripe による安全な決済 · いつでもキャンセル可能

この記事を購入する

この先の内容をすべてお読みいただけます。一度のご購入で、いつでも何度でもアクセスできます。このサイトは広告を掲載しておらず、皆さまのご支援がサーバー費用などの運営を支えています。

または
メンバーシップなら全記事が読み放題 →
シェア

お読みいただきありがとうございます

Claude Lab は広告なしで運営しており、サーバー費用などの運営コストはメンバーシップのご支援で賄っています。実装コード・ベンチマーク・本番設計パターンなど、実務でお役立ていただける記事を毎日更新しています。もし読んでよかったと感じていただけましたら、ぜひご覧ください。

  • コピー&ペーストで使える実装コード付き
  • 毎日新しい上級ガイドを追加
  • ¥580/月 または ¥1,480 の永久アクセス
メンバーシップを見る →

関連記事

API & SDK2026-06-15
Claude に最新ページを直接読ませる — web_fetch ツールの実装と落とし穴
Claude API の web_fetch ツールで、公式ページや PDF の本文をそのままコンテキストに取り込む実装手順です。URL を勝手に作らせない検証の仕組み、トークンを溶かさない設定、200 で返るエラーの処理まで、個人開発の自動運用で実際に踏んだ判断を共有します。
API & SDK2026-06-14
応答したモデルを記録する — headless パイプラインでモデル実体とコストを突き合わせる
API 応答が返す model フィールドと usage を毎回記録し、要求モデルと実際に応答したモデルのズレを検出する設計です。6/15 の usage credits 移行に向けたモデル別コスト照合まで実装します。
API & SDK2026-06-01
ユーザーレビューやクラッシュログをClaude APIに渡す前に — 個人情報を可逆マスキングする前処理の設計メモ
App StoreのレビューやCrashlyticsのログをClaude APIで分析するとき、本文に紛れ込む個人情報をどう扱うかは避けて通れません。出力から実データへ辿り直せる可逆マスキングの設計と、本番で踏んだ落とし穴を実装コード付きでまとめました。
📚RECOMMENDED BOOKS
大規模言語モデル入門
山田育矢
LLM開発
生成AIプロンプトエンジニアリング入門
我妻幸長
プロンプト
Claude CodeによるAI駆動開発入門
平川知秀
AI駆動開発
※ アフィリエイトリンクを含みます
もっと見る →