chore(voice): spike STT latency benchmark + HT contention lesson

Pas 1 (BLOCKING) din Discord voice-to-voice test plan. Sweet spot empiric pe i7-6700T: faster-whisper small int8 @ cpu_threads=4 → p50 2.25s, p95 2.64s, mean RTF 0.46. Curba HT: 2t=3.25s → 4t=2.25s (sweet) → 6t=2.79s (regres +24% prin contention). tiny respinge — halucinează RO. - tools/voice_bench.py: harness benchmark cu 8 sample-uri RO sintetizate via Supertonic API, măsoară p50/p95/RTF pentru small+tiny pe N threads. - tools/voice_bench_results*.json: raw output 3 pass-uri (threads 2/4/6). - tasks/voice-bench-results*.md: summary markdown per pass. - tasks/lessons.md: HT contention rule — cpu_threads = physical cores, rulează sweep nu single-point pentru ML inference compute-bound. Budget updated în plan-uri: STT p50 1.5s → 2.5s, perceived 4s → 5s p50. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-05-27 12:52:11 +00:00
parent 44cf0001bb
commit c6d11bdf9f
9 changed files with 1315 additions and 0 deletions
--- a/tasks/voice-bench-results-threads2.md
+++ b/tasks/voice-bench-results-threads2.md
@@ -0,0 +1,53 @@
+# Voice Bench Results — Discord Voice-to-Voice Spike
+
+Generated: 2026-05-27 12:23:08 UTC
+Budget: STT p50 < 1.50s (per CEO plan + eng review)
+Trials per sample: 3
+
+## Decision: **FALLBACK_TINY**
+
+small.p50=3.25s >= budget; tiny.p50=0.50s < budget 1.50s. Document fallback la 'tiny' în plan (accuracy mai slabă, latency OK).
+
+## Per-Model Summary
+
+| Model | p50 (s) | p95 (s) | Mean RTF | Load (s) | Threads |
+|-------|--------:|--------:|---------:|---------:|--------:|
+| small | 3.25 (FAIL) | 3.61 | 0.80 | 10.63 | 2 |
+| tiny | 0.50 (PASS) | 0.56 | 0.12 | 3.15 | 2 |
+
+## Per-Utterance Detail
+
+### small
+
+| Sample | Audio (s) | Median lat (s) | RTF | Trials | Transcript |
+|--------|----------:|---------------:|----:|--------|------------|
+| short | 1.88 | 2.95 | 1.57 | 3.24, 2.95, 2.94 | Salut ce mai faci! |
+| conversational | 2.93 | 3.10 | 1.06 | 3.09, 3.10, 3.13 | Stai puțin să mă gândesc la asta. |
+| medium | 5.99 | 3.42 | 0.57 | 3.44, 3.42, 3.34 | Am verificat în calendari și avem sedință cu echipa la 3 după amiază. |
+| numbers | 5.64 | 3.24 | 0.57 | 3.24, 3.21, 3.24 | Costul total este 120 și 3 delei și 5-10 de bani. |
+| question | 5.09 | 3.28 | 0.64 | 3.33, 3.27, 3.28 | Marius, vrei să-ți spun pe agenda de mâine să suni la noa? |
+| longer | 9.26 | 3.61 | 0.39 | 3.63, 3.61, 3.56 | Vreau să mi-reamintești, di seară, să verific dacă scriptul de bacup a rulat cor |
+
+### tiny
+
+| Sample | Audio (s) | Median lat (s) | RTF | Trials | Transcript |
+|--------|----------:|---------------:|----:|--------|------------|
+| short | 1.88 | 0.44 | 0.24 | 0.44, 0.45, 0.44 | Salute mai face? |
+| conversational | 2.93 | 0.48 | 0.16 | 0.48, 0.48, 0.47 | Stei putin să mă gândesc la asta. |
+| medium | 5.99 | 0.51 | 0.08 | 0.51, 0.51, 0.51 | Am verificat în calendar și avem sedeință cu equipala 3 dupa am iază. |
+| numbers | 5.64 | 0.50 | 0.09 | 0.50, 0.52, 0.49 | Costul total este o suta doozec și trei de lei și 50 de bani. |
+| question | 5.09 | 0.51 | 0.10 | 0.51, 0.50, 0.53 | Marius, vrei să-ți pun pe agenda de muină să sunilă nu a. |
+| longer | 9.26 | 0.56 | 0.06 | 0.56, 0.54, 0.57 | Vreau să mire am in test, disiară să verific dacă scriptul de backup a rulat cor |
+
+## Hardware Context
+
+- Platform: Linux-6.8.12-15-pve-x86_64-with-glibc2.39
+- CPU count (logical): 4
+- model name	: Intel(R) Core(TM) i7-6700T CPU @ 2.80GHz
+- MemTotal:        6291456 kB
+- MemFree:          295808 kB
+- MemAvailable:    1737392 kB
+
+## Raw Data
+
+Vezi `tools/voice_bench_results.json` pentru JSON complet.