# Give Me 10 Mins and I'll Save You Millions of Claude Tokens

**URL:** https://youtu.be/6cEQEba0i2A
**Data:** 2026-05-25
**Durata:** 10:43
**Tags:** @work @growth @claude-code @prompt-caching @tokens

---

## TL;DR

Prompt caching-ul din Claude Code salvează masiv din token-uri — autorul a salvat 91M tokeni într-o zi și 300M+ într-o săptămână. Tokenii cached costă 10% din prețul normal. TTL-ul cache-ului e 1 oră pe subscripție, 5 minute pe API. 3 obiceiuri simple acoperă 95% din cazuri.

---

## Puncte cheie

- **Tokenii cached = 10% din cost** — cei care se recachează sunt de 10x mai ieftini
- **TTL 1 oră** pe subscripție Claude Code (în terminal/extensie). Dacă nu apeșzi nimic timp de 1 oră, tot se recachează
- **TTL 5 minute** pe API și sub-agenți (pe orice plan) — periculos dacă ai sesiuni multiple
- **Ce se cachează automat:**
  - System instructions + tool definitions (global)
  - CLAUDE.md + memory/rules (per proiect)
  - Conversația (grow per turn, re-cached la fiecare mesaj)
- **Ce rupe cache-ul:**
  - Pauza >1 oră
  - Schimbarea modelului (chiar și `model opus plan` — schimbă model în plan mode → sonnet în exec → **rupe cache-ul**)
  - Schimbarea system prompt-ului (CLAUDE.md editabil mid-session, dar se aplică doar la restart — cache rămâne intact!)
- **`model opus plan` are un trade-off ascuns:** deși economisește tokeni pe termen lung, fiecare toggle plan mode = switch model = fresh cache
- **3 obiceiuri pentru 95% din cazuri:**
  1. Nu lăsa sesiunea idle >1 oră — handoff la sesiune nouă
  2. La schimbare de task: `/compact` sau `/clear` + session handoff skill
  3. Dacă pui documente mari în Claude.ai chat — mai bine Projects (caching mai bun)
- **Session handoff skill** (gratuit în comunitate): rezumă tot, fișiere importante, decizii deschise → `/copy` → `/clear` → paste → continuă fără pierderi
- **Token dashboard** (GitHub, gratuit): vizualizează cache_create vs cache_read pe zile/sesiuni, citește fișierele locale existente

---

## Quote-uri

> "Cached tokens only cost you 10% of normal input. So, all the tokens that are getting cached are saving you a ton of money."

> "If you leave a session sitting for an hour or longer, then you're going to pay more for it."

> "We actually run alerts on our prompt cache hit rate and declare SEVs if they're too low." — Thoric (Anthropic)

> "The Opus plan model setting resolves to Opus during plan mode and Sonnet during execution. So, each plan toggle is a model switch and starts a fresh cache."

---

## Idei acționabile

- [ ] Verifică dacă Echo Core folosește `model opus plan` — dacă da, evaluat trade-off vs caching
- [ ] Session handoff: skill util pentru sesiuni lungi Claude Code (alternativă la /compact)
- [ ] Nu edita CLAUDE.md și așteptă restart imediat — cache-ul rămâne intact până la restart
- [ ] Sub-agenții (Ralph!) au TTL 5 min pe API — ține cont la rulările nocturne