Give Me 10 Mins and I'll Save You Millions of Claude Tokens

URL: https://youtu.be/6cEQEba0i2A Data: 2026-05-25 Durata: 10:43 Tags: @work @growth @claude-code @prompt-caching @tokens

TL;DR

Prompt caching-ul din Claude Code salvează masiv din token-uri — autorul a salvat 91M tokeni într-o zi și 300M+ într-o săptămână. Tokenii cached costă 10% din prețul normal. TTL-ul cache-ului e 1 oră pe subscripție, 5 minute pe API. 3 obiceiuri simple acoperă 95% din cazuri.

Puncte cheie

Tokenii cached = 10% din cost — cei care se recachează sunt de 10x mai ieftini
TTL 1 oră pe subscripție Claude Code (în terminal/extensie). Dacă nu apeșzi nimic timp de 1 oră, tot se recachează
TTL 5 minute pe API și sub-agenți (pe orice plan) — periculos dacă ai sesiuni multiple
Ce se cachează automat:
- System instructions + tool definitions (global)
- CLAUDE.md + memory/rules (per proiect)
- Conversația (grow per turn, re-cached la fiecare mesaj)
Ce rupe cache-ul:
- Pauza >1 oră
- Schimbarea modelului (chiar și model opus plan — schimbă model în plan mode → sonnet în exec → rupe cache-ul)
- Schimbarea system prompt-ului (CLAUDE.md editabil mid-session, dar se aplică doar la restart — cache rămâne intact!)
model opus plan are un trade-off ascuns: deși economisește tokeni pe termen lung, fiecare toggle plan mode = switch model = fresh cache
3 obiceiuri pentru 95% din cazuri:
1. Nu lăsa sesiunea idle >1 oră — handoff la sesiune nouă
2. La schimbare de task: /compact sau /clear + session handoff skill
3. Dacă pui documente mari în Claude.ai chat — mai bine Projects (caching mai bun)
Session handoff skill (gratuit în comunitate): rezumă tot, fișiere importante, decizii deschise → /copy → /clear → paste → continuă fără pierderi
Token dashboard (GitHub, gratuit): vizualizează cache_create vs cache_read pe zile/sesiuni, citește fișierele locale existente

Quote-uri

"Cached tokens only cost you 10% of normal input. So, all the tokens that are getting cached are saving you a ton of money."

"If you leave a session sitting for an hour or longer, then you're going to pay more for it."

"We actually run alerts on our prompt cache hit rate and declare SEVs if they're too low." — Thoric (Anthropic)

"The Opus plan model setting resolves to Opus during plan mode and Sonnet during execution. So, each plan toggle is a model switch and starts a fresh cache."

Idei acționabile

Verifică dacă Echo Core folosește model opus plan — dacă da, evaluat trade-off vs caching
Session handoff: skill util pentru sesiuni lungi Claude Code (alternativă la /compact)
Nu edita CLAUDE.md și așteptă restart imediat — cache-ul rămâne intact până la restart
Sub-agenții (Ralph!) au TTL 5 min pe API — ține cont la rulările nocturne

2.9 KiB Raw Blame History

Give Me 10 Mins and I'll Save You Millions of Claude Tokens

TL;DR

Puncte cheie

Quote-uri

Idei acționabile

2.9 KiB

Raw Blame History