# I Stopped Hitting Claude Code Usage Limits (Here's How)

**URL:** https://youtu.be/9ToOfgZ4qqQ
**Data:** 2026-04-11
**Durată:** 11:00
**Tags:** @work @growth @project

---

## TL;DR

Video practic despre cum să reduci consumul de tokeni în Claude Code prin "context hygiene". Problema principală nu e limita de usage, ci **context bloat** — tokeni irositi pe lucruri invizibile care se compun cu fiecare mesaj. Soluțiile sunt clare și aplicabile imediat.

---

## Puncte cheie

### 1. Context bloat — problema reală
- Fiecare mesaj nou recitește TOATĂ conversația → mesajul 30 costă de 31x mai mult decât primul
- La start de sesiune fresh, autorul avea **50.000 tokeni** deja consumați (CLAUDE.md + MCP + skills)
- Poți vedea asta rulând `/context` în Claude Code

### 2. MCP servers — cel mai mare vinovat
- Fiecare server MCP încarcă **toate** definițiile de tool-uri în context la FIECARE mesaj (nu doar când le folosești)
- Un singur server = ~18.000 tokeni
- **Fix:** Rulează `/mcp` la start și deconectează ce nu folosești în sesiunea respectivă
- **Fix mai bun:** Înlocuiește MCP-urile cu CLI-uri — CLI costă tokeni DOAR când e apelat, nu prin existență. Economie ~40%

### 3. CLAUDE.md — optimizare în 3 pași
- **Elimină contradicțiile** — instrucțiuni care se bat cap în cap (ex: "fii concis" vs "explică în detaliu")
- **Taie regulile care nu câștigă locul** — 5 întrebări de filtrat: face Claude asta oricum? se repetă? e prea vag? e band-aid pentru un output slab? contrazice altceva?
- **Progressive disclosure** — CLAUDE.md principal = DOAR reguli universale. Restul → fișiere separate (`api-standards.md`, `testing-guidelines.md`) cu un singur pointer. Claude le citește **doar când are nevoie**

### 4. Skills — mai puțin e mai mult
- Metadata fiecărui skill se încarcă în context mereu
- Skills verbose (400-800 linii) = tokeni arși fără return
- Skills bune = concise și scurte. Prea multe instrucțiuni → Claude ignoră unele

### 5. Settings.json — ajustări rapide
- `autoCompactPercentageOverride: 75` — compactare la 75% în loc de 83% (quality degradează înainte)
- `BASH_MAX_OUTPUT_LENGTH: 150000` — evită retry-uri costisitoare pe output trunchiat
- **Deny rules** pentru directoare inutile (node_modules, .dist, lock files) — ca un `.gitignore` pentru Claude

### 6. Obiceiuri zilnice
- **Sesiuni fresh** între taskuri nerelate — `/clear` înainte de a schimba contextul
- **Plan mode** înainte de orice task non-trivial — evită 200 linii de cod greșit
- **Nu corecta cu follow-up** — editeaza ultimul mesaj în loc să adaugi corecție (evită să poluezi istoricul)
- **Model potrivit:** Sonnet = coding, Haiku = sub-agenți/lookups, Opus = arhitectură

---

## Quote-uri notabile

> "Message 30 actually costs 31 times more than your first message when you're in a Claude Code session."

> "It's not a limits problem. It's a context hygiene problem and your setup drifts over time."

> "One server can have about 18,000 tokens worth of tool definitions. If you have a few of these servers compounding, that can be over 70,000 tokens of dead weight on every single turn."

> "Your core CLAUDE.md should only contain rules that apply to every single session in that repository."

---

## Idei aplicabile pentru Echo Core

- [ ] Audit AGENTS.md / SOUL.md / CLAUDE.md pentru reguli redundante sau prea verbose @work
- [ ] Verifică MCP-urile active (Playwright e MCP — ar putea fi CLI?) @work
- [ ] Adaugă deny rules în settings.json pentru directoare inutile @work
- [ ] Setează `autoCompactPercentageOverride: 75` în settings.json @work
- [ ] Progressive disclosure: mută detaliile de infrastructură din AGENTS.md în fișiere separate (deja parțial făcut cu kb/) @work