2.9 KiB
Give Me 10 Mins and I'll Save You Millions of Claude Tokens
URL: https://youtu.be/6cEQEba0i2A Data: 2026-05-25 Durata: 10:43 Tags: @work @growth @claude-code @prompt-caching @tokens
TL;DR
Prompt caching-ul din Claude Code salvează masiv din token-uri — autorul a salvat 91M tokeni într-o zi și 300M+ într-o săptămână. Tokenii cached costă 10% din prețul normal. TTL-ul cache-ului e 1 oră pe subscripție, 5 minute pe API. 3 obiceiuri simple acoperă 95% din cazuri.
Puncte cheie
- Tokenii cached = 10% din cost — cei care se recachează sunt de 10x mai ieftini
- TTL 1 oră pe subscripție Claude Code (în terminal/extensie). Dacă nu apeșzi nimic timp de 1 oră, tot se recachează
- TTL 5 minute pe API și sub-agenți (pe orice plan) — periculos dacă ai sesiuni multiple
- Ce se cachează automat:
- System instructions + tool definitions (global)
- CLAUDE.md + memory/rules (per proiect)
- Conversația (grow per turn, re-cached la fiecare mesaj)
- Ce rupe cache-ul:
- Pauza >1 oră
- Schimbarea modelului (chiar și
model opus plan— schimbă model în plan mode → sonnet în exec → rupe cache-ul) - Schimbarea system prompt-ului (CLAUDE.md editabil mid-session, dar se aplică doar la restart — cache rămâne intact!)
model opus planare un trade-off ascuns: deși economisește tokeni pe termen lung, fiecare toggle plan mode = switch model = fresh cache- 3 obiceiuri pentru 95% din cazuri:
- Nu lăsa sesiunea idle >1 oră — handoff la sesiune nouă
- La schimbare de task:
/compactsau/clear+ session handoff skill - Dacă pui documente mari în Claude.ai chat — mai bine Projects (caching mai bun)
- Session handoff skill (gratuit în comunitate): rezumă tot, fișiere importante, decizii deschise →
/copy→/clear→ paste → continuă fără pierderi - Token dashboard (GitHub, gratuit): vizualizează cache_create vs cache_read pe zile/sesiuni, citește fișierele locale existente
Quote-uri
"Cached tokens only cost you 10% of normal input. So, all the tokens that are getting cached are saving you a ton of money."
"If you leave a session sitting for an hour or longer, then you're going to pay more for it."
"We actually run alerts on our prompt cache hit rate and declare SEVs if they're too low." — Thoric (Anthropic)
"The Opus plan model setting resolves to Opus during plan mode and Sonnet during execution. So, each plan toggle is a model switch and starts a fresh cache."
Idei acționabile
- Verifică dacă Echo Core folosește
model opus plan— dacă da, evaluat trade-off vs caching - Session handoff: skill util pentru sesiuni lungi Claude Code (alternativă la /compact)
- Nu edita CLAUDE.md și așteptă restart imediat — cache-ul rămâne intact până la restart
- Sub-agenții (Ralph!) au TTL 5 min pe API — ține cont la rulările nocturne