Files

Marius Mutu c6d11bdf9f chore(voice): spike STT latency benchmark + HT contention lesson

Pas 1 (BLOCKING) din Discord voice-to-voice test plan. Sweet spot empiric
pe i7-6700T: faster-whisper small int8 @ cpu_threads=4 → p50 2.25s,
p95 2.64s, mean RTF 0.46. Curba HT: 2t=3.25s → 4t=2.25s (sweet) →
6t=2.79s (regres +24% prin contention). tiny respinge — halucinează RO.

- tools/voice_bench.py: harness benchmark cu 8 sample-uri RO sintetizate
  via Supertonic API, măsoară p50/p95/RTF pentru small+tiny pe N threads.
- tools/voice_bench_results*.json: raw output 3 pass-uri (threads 2/4/6).
- tasks/voice-bench-results*.md: summary markdown per pass.
- tasks/lessons.md: HT contention rule — cpu_threads = physical cores,
  rulează sweep nu single-point pentru ML inference compute-bound.

Budget updated în plan-uri: STT p50 1.5s → 2.5s, perceived 4s → 5s p50.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>

2026-05-27 12:52:11 +00:00

2.5 KiB

Raw Permalink Blame History

Voice Bench Results — Discord Voice-to-Voice Spike

Generated: 2026-05-27 12:23:08 UTC Budget: STT p50 < 1.50s (per CEO plan + eng review) Trials per sample: 3

Decision: FALLBACK_TINY

small.p50=3.25s >= budget; tiny.p50=0.50s < budget 1.50s. Document fallback la 'tiny' în plan (accuracy mai slabă, latency OK).

Per-Model Summary

Model	p50 (s)	p95 (s)	Mean RTF	Load (s)	Threads
small	3.25 (FAIL)	3.61	0.80	10.63	2
tiny	0.50 (PASS)	0.56	0.12	3.15	2

Per-Utterance Detail

small

Sample	Audio (s)	Median lat (s)	RTF	Trials	Transcript
short	1.88	2.95	1.57	3.24, 2.95, 2.94	Salut ce mai faci!
conversational	2.93	3.10	1.06	3.09, 3.10, 3.13	Stai puțin să mă gândesc la asta.
medium	5.99	3.42	0.57	3.44, 3.42, 3.34	Am verificat în calendari și avem sedință cu echipa la 3 după amiază.
numbers	5.64	3.24	0.57	3.24, 3.21, 3.24	Costul total este 120 și 3 delei și 5-10 de bani.
question	5.09	3.28	0.64	3.33, 3.27, 3.28	Marius, vrei să-ți spun pe agenda de mâine să suni la noa?
longer	9.26	3.61	0.39	3.63, 3.61, 3.56	Vreau să mi-reamintești, di seară, să verific dacă scriptul de bacup a rulat cor

tiny

Sample	Audio (s)	Median lat (s)	RTF	Trials	Transcript
short	1.88	0.44	0.24	0.44, 0.45, 0.44	Salute mai face?
conversational	2.93	0.48	0.16	0.48, 0.48, 0.47	Stei putin să mă gândesc la asta.
medium	5.99	0.51	0.08	0.51, 0.51, 0.51	Am verificat în calendar și avem sedeință cu equipala 3 dupa am iază.
numbers	5.64	0.50	0.09	0.50, 0.52, 0.49	Costul total este o suta doozec și trei de lei și 50 de bani.
question	5.09	0.51	0.10	0.51, 0.50, 0.53	Marius, vrei să-ți pun pe agenda de muină să sunilă nu a.
longer	9.26	0.56	0.06	0.56, 0.54, 0.57	Vreau să mire am in test, disiară să verific dacă scriptul de backup a rulat cor

Hardware Context

Platform: Linux-6.8.12-15-pve-x86_64-with-glibc2.39
CPU count (logical): 4
model name : Intel(R) Core(TM) i7-6700T CPU @ 2.80GHz
MemTotal: 6291456 kB
MemFree: 295808 kB
MemAvailable: 1737392 kB

Raw Data

Vezi tools/voice_bench_results.json pentru JSON complet.

2.5 KiB Raw Permalink Blame History