chore(voice): spike STT latency benchmark + HT contention lesson

Pas 1 (BLOCKING) din Discord voice-to-voice test plan. Sweet spot empiric pe i7-6700T: faster-whisper small int8 @ cpu_threads=4 → p50 2.25s, p95 2.64s, mean RTF 0.46. Curba HT: 2t=3.25s → 4t=2.25s (sweet) → 6t=2.79s (regres +24% prin contention). tiny respinge — halucinează RO. - tools/voice_bench.py: harness benchmark cu 8 sample-uri RO sintetizate via Supertonic API, măsoară p50/p95/RTF pentru small+tiny pe N threads. - tools/voice_bench_results*.json: raw output 3 pass-uri (threads 2/4/6). - tasks/voice-bench-results*.md: summary markdown per pass. - tasks/lessons.md: HT contention rule — cpu_threads = physical cores, rulează sweep nu single-point pentru ML inference compute-bound. Budget updated în plan-uri: STT p50 1.5s → 2.5s, perceived 4s → 5s p50. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-05-27 12:52:11 +00:00
parent 44cf0001bb
commit c6d11bdf9f
9 changed files with 1315 additions and 0 deletions
--- a/tasks/lessons.md
+++ b/tasks/lessons.md
@@ -17,6 +17,13 @@ Lecții capturate din corectările lui Marius. Citește acest fișier la începu

 <!-- Lecțiile se adaugă mai jos, cele mai noi sus. -->

+## Mai multe threads ≠ mai rapid — fitează `cpu_threads` pe physical cores, nu logical
+**Data:** 2026-05-27
+**Context:** Benchmark `tools/voice_bench.py` pentru faster-whisper `small` int8 pe i7-6700T (4 physical / 8 logical cores). Marius a urcat VM-ul de la 2 → 4 → 6 cores online, așteptând că mai multe = mai rapid.
+**Greșeala:** Presupoziție implicită că `cpu_threads=N` scalează liniar cu N. La 6 threads `small.p50` a regresat la 2.79s vs 2.25s la 4 threads (+24% MAI LENT). Era ușor de ratat dacă rulam doar un singur pass.
+**Regula:** Pentru workload-uri compute-bound (int8/fp16 ML inference, video encode, criptografie) setează `cpu_threads = numărul de PHYSICAL cores`, NU logical. Hyperthreads adaugă synchronization overhead și memory bandwidth contention fără paralelism real. Sweet spot tipic: `min(num_physical_cores, $optimal_threads)`. Verifică cu `lscpu` (Core(s) per socket × Socket(s) = physical; CPU(s) = logical). Dacă faci benchmark, rulează SWEEP nu single point — 2/4/6/8 threads să vezi unde e curba reală.
+**Când se aplică:** Configurare `cpu_threads`, `OMP_NUM_THREADS`, `MKL_NUM_THREADS`, `torch.set_num_threads()`, ffmpeg `-threads`, sau orice runtime ML/inference. Mai ales pe Proxmox VM-uri unde "more cores online" sună ca îmbunătățire. Întreabă-te: e workload compute-bound (yes → physical only) sau IO-bound (yes → logical OK)?
+
 ## Nu șterge crontab-uri din sistem fără confirmare explicită
 **Data:** 2026-05-20
 **Context:** Marius a cerut să șteargă "newsletter test din cron jobs". Am interpretat că `check_newsletter_cercetasi.py` din crontab de sistem face parte din "newsletter test".
--- a/tasks/voice-bench-results-threads2.md
+++ b/tasks/voice-bench-results-threads2.md
@@ -0,0 +1,53 @@
+# Voice Bench Results — Discord Voice-to-Voice Spike
+
+Generated: 2026-05-27 12:23:08 UTC
+Budget: STT p50 < 1.50s (per CEO plan + eng review)
+Trials per sample: 3
+
+## Decision: **FALLBACK_TINY**
+
+small.p50=3.25s >= budget; tiny.p50=0.50s < budget 1.50s. Document fallback la 'tiny' în plan (accuracy mai slabă, latency OK).
+
+## Per-Model Summary
+
+| Model | p50 (s) | p95 (s) | Mean RTF | Load (s) | Threads |
+|-------|--------:|--------:|---------:|---------:|--------:|
+| small | 3.25 (FAIL) | 3.61 | 0.80 | 10.63 | 2 |
+| tiny | 0.50 (PASS) | 0.56 | 0.12 | 3.15 | 2 |
+
+## Per-Utterance Detail
+
+### small
+
+| Sample | Audio (s) | Median lat (s) | RTF | Trials | Transcript |
+|--------|----------:|---------------:|----:|--------|------------|
+| short | 1.88 | 2.95 | 1.57 | 3.24, 2.95, 2.94 | Salut ce mai faci! |
+| conversational | 2.93 | 3.10 | 1.06 | 3.09, 3.10, 3.13 | Stai puțin să mă gândesc la asta. |
+| medium | 5.99 | 3.42 | 0.57 | 3.44, 3.42, 3.34 | Am verificat în calendari și avem sedință cu echipa la 3 după amiază. |
+| numbers | 5.64 | 3.24 | 0.57 | 3.24, 3.21, 3.24 | Costul total este 120 și 3 delei și 5-10 de bani. |
+| question | 5.09 | 3.28 | 0.64 | 3.33, 3.27, 3.28 | Marius, vrei să-ți spun pe agenda de mâine să suni la noa? |
+| longer | 9.26 | 3.61 | 0.39 | 3.63, 3.61, 3.56 | Vreau să mi-reamintești, di seară, să verific dacă scriptul de bacup a rulat cor |
+
+### tiny
+
+| Sample | Audio (s) | Median lat (s) | RTF | Trials | Transcript |
+|--------|----------:|---------------:|----:|--------|------------|
+| short | 1.88 | 0.44 | 0.24 | 0.44, 0.45, 0.44 | Salute mai face? |
+| conversational | 2.93 | 0.48 | 0.16 | 0.48, 0.48, 0.47 | Stei putin să mă gândesc la asta. |
+| medium | 5.99 | 0.51 | 0.08 | 0.51, 0.51, 0.51 | Am verificat în calendar și avem sedeință cu equipala 3 dupa am iază. |
+| numbers | 5.64 | 0.50 | 0.09 | 0.50, 0.52, 0.49 | Costul total este o suta doozec și trei de lei și 50 de bani. |
+| question | 5.09 | 0.51 | 0.10 | 0.51, 0.50, 0.53 | Marius, vrei să-ți pun pe agenda de muină să sunilă nu a. |
+| longer | 9.26 | 0.56 | 0.06 | 0.56, 0.54, 0.57 | Vreau să mire am in test, disiară să verific dacă scriptul de backup a rulat cor |
+
+## Hardware Context
+
+- Platform: Linux-6.8.12-15-pve-x86_64-with-glibc2.39
+- CPU count (logical): 4
+- model name	: Intel(R) Core(TM) i7-6700T CPU @ 2.80GHz
+- MemTotal:        6291456 kB
+- MemFree:          295808 kB
+- MemAvailable:    1737392 kB
+
+## Raw Data
+
+Vezi `tools/voice_bench_results.json` pentru JSON complet.
--- a/tasks/voice-bench-results-threads4.md
+++ b/tasks/voice-bench-results-threads4.md
@@ -0,0 +1,65 @@
+# Voice Bench Results — Discord Voice-to-Voice Spike
+
+Generated: 2026-05-27 (BLOCKING Pas 1 din test plan)
+Hardware: i7-6700T (Skylake mobile), Proxmox VM, no GPU
+Budget original: STT p50 < 1.50s (per CEO plan aspirational)
+Budget honest: 1.5-3s (per Outside Voice #1, baked in CEO plan)
+
+## Final Recommendation: **PASS cu `small` model**
+
+Script-ul a returnat auto-decision `FALLBACK_TINY` pentru că `small.p50=2.25s > 1.5s` literal. **Override manual**: `tiny` produce transcript ilizibil în RO ("muină să sun la nu a", "să mream in test de seare", "Stei putin") — inutilizabil pentru produs. `small @ 4 threads` cade în honest range-ul "1.5-3s" deja acceptat în CEO plan și produce transcript clean modulo normalizare numerică (deja în scope: `src/voice/normalize.py`).
+
+**Implicații pentru implementare:**
+1. Folosește `WhisperModel("small", device="cpu", compute_type="int8", cpu_threads=4)` în `src/voice/pipeline.py`.
+2. Update plan latency budget: STT p50 = 2.25s (era 1.5s); perceived round-trip estimate = 3.5-5s (STT 2.25s + Claude TTFB 0.5-1s + streaming TTS first clause ~0.5s).
+3. Streaming Claude→TTS rămâne critic — fără el, total perceived = 6-8s, peste limita conversațională.
+4. Filler audio "Stai să-mi adun gândurile" (deja în plan) maschează cazurile p95 (>3s).
+5. Document fallback la `tiny` DOAR pentru `/voice doctor` mode degraded (Whisper OOM etc.), nu pentru happy path.
+
+## Two-Pass Comparison (threads=2 vs threads=4)
+
+| Model | threads | p50 (s) | p95 (s) | mean RTF | Verdict |
+|-------|--------:|--------:|--------:|---------:|---------|
+| small | 2 | 3.25 | 3.63 | 0.67 | FAIL latency |
+| **small** | **4** | **2.25** | **2.64** | **0.46** | **CHOSEN** (quality + honest range) |
+| tiny | 2 | 0.50 | 0.57 | 0.10 | FAIL quality |
+| tiny | 4 | 0.48 | 0.57 | 0.10 | FAIL quality |
+
+CPU upgrade 2→4 cores: **`small` got 31% faster** (3.25s → 2.25s), `tiny` essentially unchanged (CPU-light enough că nu beneficiază). Confirmă că `small` e CPU-bound, `tiny` nu.
+
+## Transcript Quality Side-by-Side (4 threads)
+
+| Input | small @ 4t | tiny @ 4t |
+|-------|-----------|-----------|
+| "Salut, ce mai faci?" | "Salut ce mai faci!" | "Salut, ce mai fac?" |
+| "Stai puțin să mă gândesc la asta." | "Stai putin să mă gândesc la asta." | "Stei putin să mă gândesc la asta." |
+| "Am verificat în calendar și avem ședință cu echipa la trei după-amiază." | "Am verificat în calendari și avem sedință cu echipa la 3 după amiază." | "Am verificat în calendar și avem sedeință cu equipala 3 du pămiază." |
+| "Costul total este o sută douăzeci și trei de lei și cincizeci de bani." | "Costul total este 120 și 3 delei și 50 de bani." | "Costul total este o suta 20 și 3 de lei și 50 de bani." |
+| "Marius, vrei să-ți pun pe agenda de mâine să suni la NOAA?" | "Marius, vrei să-ți spun pe agenda de mâine să suni la noa a." | "Marius, vrei să-ți pun pe agenda de muină să sun la nu a." |
+| "Vreau să-mi reamintești diseară..." | "Vreau să mi-răimintești di seară..." | "Vreau să mream in test de seare..." |
+
+**Observații:**
+- `small` greșeli: diacritice (`putin`/`puțin`, `sedință`/`ședință`), numbere ca digiti ("3" în loc de "trei"), acronime (NOAA→noa), aglutinare ("delei"/"de lei", "răimintești"/"reamintești").
+- `tiny` greșeli: cuvinte INVENTATE ("mream", "muină", "equipala", "sunilă") — hallucination, nu doar misspell.
+
+## Hardware Context
+
+- Intel(R) Core(TM) i7-6700T CPU @ 2.80GHz (Skylake mobile, 2015)
+- Cores online: 4 logical (din 8), upgrade de la 2 în timpul benchmark-ului
+- RAM: 6.0Gi total, ~2.5Gi available
+- No NVIDIA GPU (CPU-only inference)
+- ctranslate2 4.7.2 + faster-whisper 1.2.1 + int8 quantization
+
+## Open Questions pentru Decision Lock
+
+1. **Budget relax oficial:** acceptăm 2.25s p50 în plan și comunicăm honest user-facing? Sau încercăm:
+   - **Groq Whisper Large-v3 API** (~0.3s, free tier 14k req/day) — vine cu network dependency
+   - **Deepgram Nova-2 RO streaming** ($, dar 0.2s streaming partial transcripts)
+   - **Whisper.cpp + AVX2** (același small model, optimizat C++) — ~30% boost suplimentar potențial
+2. **CPU bump:** dacă activăm restul de 4 cores offline (3-6) ar coborî `small.p50` la ~1.5s? Worth investigat (probabil VM resource cap, nu hardware limit).
+
+## Raw Data
+
+- `tools/voice_bench_results.json` — run curent (threads=4)
+- `tools/voice_bench_results_threads2.json` — baseline (threads=2)
+- `tasks/voice-bench-results-threads2.md` — narrative pentru baseline
--- a/tasks/voice-bench-results.md
+++ b/tasks/voice-bench-results.md
@@ -0,0 +1,79 @@
+# Voice Bench Results — Discord Voice-to-Voice Spike (BLOCKING Pas 1)
+
+Generated: 2026-05-27
+Hardware: i7-6700T (4 physical cores / 8 logical), Proxmox VM, no GPU
+Budget original: STT p50 < 1.50s (per CEO plan aspirational)
+Budget honest range: 1.5-3s (per Outside Voice #1, baked in CEO plan)
+
+## Final Recommendation: **PASS cu `small` model + `cpu_threads=4`**
+
+`small @ 4t` → p50 **2.25s**, p95 **2.64s**, mean RTF **0.46**. Cade în honest range "1.5-3s" deja acceptat. Transcript clean modulo normalizare numerică (deja în scope: `src/voice/normalize.py`).
+
+**Auto-decision script-ul** (`FALLBACK_TINY`) **este override-uit manual**: `tiny` produce transcript ilizibil ("Stei putin", "muină să sun la nu a", "să mream in test de seare") — neutilizabil în RO. Latency-ul rapid nu compensează lipsa de înțelegere.
+
+## Surprise Finding: Threads Sweet Spot = 4, nu 6
+
+Sweep complet:
+
+| cpu_threads | small.p50 | small.p95 | mean RTF | Δ p50 vs threads=4 |
+|------------:|---------:|---------:|---------:|-------------------:|
+| 2 | 3.25s | 3.63s | 0.67 | +44% (slower) |
+| **4** | **2.25s** | **2.64s** | **0.46** | **baseline** |
+| 6 | 2.79s | 3.31s | 0.70 | +24% (slower!) |
+
+`tiny` essentially flat (~0.5s) la orice thread count — CPU-light enough că nu beneficiază.
+
+**Explicație:** i7-6700T = 4 physical cores + 4 hyperthreads. `cpu_threads=4` fitează exact pe physical cores (no hyperthread contention). `cpu_threads=6` spill-uiește pe hyperthreads care HURT compute-bound int8 inference (memory bandwidth contention, fără parallelism real). **Lock în plan: `cpu_threads=4` regardless of VM core count.** Adăugarea de cores în VM nu mai accelerează `small` peste 4 threads.
+
+## Implicații pentru implementare
+
+1. `src/voice/pipeline.py` →
+   ```python
+   WhisperModel("small", device="cpu", compute_type="int8", cpu_threads=4)
+   ```
+2. **Plan budget update:** STT p50 = 2.25s (era 1.5s); perceived round-trip estimate = **3.5-5s** (STT 2.25s + Claude TTFB 0.5-1s + streaming TTS first clause ~0.5s).
+3. **Streaming Claude→TTS rămâne critic** — fără el, total perceived = 6-8s, peste limita conversațională.
+4. **Filler audio** "Stai să-mi adun gândurile" (deja în plan) maschează cazurile p95 (>3s).
+5. **Tiny model** rămâne instalat dar doar pentru `/voice doctor` degraded mode (Whisper OOM, low memory), NU pentru happy path.
+
+## Transcript Quality (4 threads run)
+
+| Input | `small` output | `tiny` output |
+|-------|----------------|---------------|
+| "Salut, ce mai faci?" | "Salut ce mai faci!" | "Salut, ce mai fac?" |
+| "Stai puțin să mă gândesc la asta." | "Stai putin să mă gândesc la asta." | "Stei putin să mă gândesc la asta." |
+| "Am verificat în calendar și avem ședință cu echipa la trei după-amiază." | "Am verificat în calendari și avem sedință cu echipa la 3 după amiază." | "Am verificat în calendar și avem sedeință cu equipala 3 du pămiază." |
+| "Costul total este o sută douăzeci și trei de lei și cincizeci de bani." | "Costul total este 120 și 3 delei și 50 de bani." | "Costul total este o suta 20 și 3 de lei și 50 de bani." |
+| "Marius, vrei să-ți pun pe agenda de mâine să suni la NOAA?" | "Marius, vrei să-ți spun pe agenda de mâine să suni la noa a." | "Marius, vrei să-ți pun pe agenda de muină să sun la nu a." |
+| "Vreau să-mi reamintești diseară..." | "Vreau să mi-răimintești di seară..." | "Vreau să mream in test de seare..." |
+
+**Pattern erori:**
+- `small`: diacritice missing (`putin`/`puțin`, `sedință`/`ședință`), numere ca digiti ("3" în loc de "trei" — normalizator inverse din scope), acronime ("noa" pentru NOAA — expected, deferr), aglutinare minoră ("delei", "răimintești").
+- `tiny`: cuvinte INVENTATE ("mream", "muină", "equipala", "sunilă"). Hallucination, nu doar misspell. **Unusable.**
+
+## Open Questions (pentru decizie finală)
+
+1. **Acceptăm 2.25s p50?** YES — în honest range CEO plan deja aprobat. User-facing communication: "Echo gândește 2-3 secunde înainte să răspundă" (vs. aspirational sub-secundă).
+2. **Activate restul de 2 cores offline (5,6)?** Marginal — nu va îmbunătăți peste threads=4 sweet spot. Worth doar pentru concurrent workloads (TTS + STT simultan, alte servicii).
+3. **Network STT alternative (Groq/Deepgram)?** Deferred — `small @ 4t` confirmat sufficient. Reconsiderăm DOAR dacă post-implementation p95 perceived >7s.
+
+## Hardware Context
+
+- Intel(R) Core(TM) i7-6700T CPU @ 2.80GHz (Skylake mobile, 2015)
+- Cores online (final): 6 logical (0-4, 7), 2 offline (5, 6)
+- Physical cores: 4 (TUI 8 logical via HT)
+- RAM: 6.0Gi total, ~2.0Gi available
+- No GPU (CPU-only int8 inference)
+- ctranslate2 4.7.2 + faster-whisper 1.2.1
+
+## Raw Data
+
+- `tools/voice_bench_results.json` — last run (threads=6)
+- `tools/voice_bench_results_threads4.json` — **WINNING config** (threads=4)
+- `tools/voice_bench_results_threads2.json` — baseline (threads=2)
+- `tasks/voice-bench-results-threads2.md` — narrative threads=2
+- `tasks/voice-bench-results-threads4.md` — narrative threads=4
+
+## Status
+
+**BLOCKING Pas 1 → CLEARED.** Sweet spot identificat. Plan file ready pentru update.