Files
echo-core/tasks/voice-bench-results-threads2.md
Marius Mutu c6d11bdf9f chore(voice): spike STT latency benchmark + HT contention lesson
Pas 1 (BLOCKING) din Discord voice-to-voice test plan. Sweet spot empiric
pe i7-6700T: faster-whisper small int8 @ cpu_threads=4 → p50 2.25s,
p95 2.64s, mean RTF 0.46. Curba HT: 2t=3.25s → 4t=2.25s (sweet) →
6t=2.79s (regres +24% prin contention). tiny respinge — halucinează RO.

- tools/voice_bench.py: harness benchmark cu 8 sample-uri RO sintetizate
  via Supertonic API, măsoară p50/p95/RTF pentru small+tiny pe N threads.
- tools/voice_bench_results*.json: raw output 3 pass-uri (threads 2/4/6).
- tasks/voice-bench-results*.md: summary markdown per pass.
- tasks/lessons.md: HT contention rule — cpu_threads = physical cores,
  rulează sweep nu single-point pentru ML inference compute-bound.

Budget updated în plan-uri: STT p50 1.5s → 2.5s, perceived 4s → 5s p50.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-05-27 12:52:11 +00:00

2.5 KiB

Voice Bench Results — Discord Voice-to-Voice Spike

Generated: 2026-05-27 12:23:08 UTC Budget: STT p50 < 1.50s (per CEO plan + eng review) Trials per sample: 3

Decision: FALLBACK_TINY

small.p50=3.25s >= budget; tiny.p50=0.50s < budget 1.50s. Document fallback la 'tiny' în plan (accuracy mai slabă, latency OK).

Per-Model Summary

Model p50 (s) p95 (s) Mean RTF Load (s) Threads
small 3.25 (FAIL) 3.61 0.80 10.63 2
tiny 0.50 (PASS) 0.56 0.12 3.15 2

Per-Utterance Detail

small

Sample Audio (s) Median lat (s) RTF Trials Transcript
short 1.88 2.95 1.57 3.24, 2.95, 2.94 Salut ce mai faci!
conversational 2.93 3.10 1.06 3.09, 3.10, 3.13 Stai puțin să mă gândesc la asta.
medium 5.99 3.42 0.57 3.44, 3.42, 3.34 Am verificat în calendari și avem sedință cu echipa la 3 după amiază.
numbers 5.64 3.24 0.57 3.24, 3.21, 3.24 Costul total este 120 și 3 delei și 5-10 de bani.
question 5.09 3.28 0.64 3.33, 3.27, 3.28 Marius, vrei să-ți spun pe agenda de mâine să suni la noa?
longer 9.26 3.61 0.39 3.63, 3.61, 3.56 Vreau să mi-reamintești, di seară, să verific dacă scriptul de bacup a rulat cor

tiny

Sample Audio (s) Median lat (s) RTF Trials Transcript
short 1.88 0.44 0.24 0.44, 0.45, 0.44 Salute mai face?
conversational 2.93 0.48 0.16 0.48, 0.48, 0.47 Stei putin să mă gândesc la asta.
medium 5.99 0.51 0.08 0.51, 0.51, 0.51 Am verificat în calendar și avem sedeință cu equipala 3 dupa am iază.
numbers 5.64 0.50 0.09 0.50, 0.52, 0.49 Costul total este o suta doozec și trei de lei și 50 de bani.
question 5.09 0.51 0.10 0.51, 0.50, 0.53 Marius, vrei să-ți pun pe agenda de muină să sunilă nu a.
longer 9.26 0.56 0.06 0.56, 0.54, 0.57 Vreau să mire am in test, disiară să verific dacă scriptul de backup a rulat cor

Hardware Context

  • Platform: Linux-6.8.12-15-pve-x86_64-with-glibc2.39
  • CPU count (logical): 4
  • model name : Intel(R) Core(TM) i7-6700T CPU @ 2.80GHz
  • MemTotal: 6291456 kB
  • MemFree: 295808 kB
  • MemAvailable: 1737392 kB

Raw Data

Vezi tools/voice_bench_results.json pentru JSON complet.