Files
echo-core/tasks/voice-bench-results-threads2.md
Marius Mutu c6d11bdf9f chore(voice): spike STT latency benchmark + HT contention lesson
Pas 1 (BLOCKING) din Discord voice-to-voice test plan. Sweet spot empiric
pe i7-6700T: faster-whisper small int8 @ cpu_threads=4 → p50 2.25s,
p95 2.64s, mean RTF 0.46. Curba HT: 2t=3.25s → 4t=2.25s (sweet) →
6t=2.79s (regres +24% prin contention). tiny respinge — halucinează RO.

- tools/voice_bench.py: harness benchmark cu 8 sample-uri RO sintetizate
  via Supertonic API, măsoară p50/p95/RTF pentru small+tiny pe N threads.
- tools/voice_bench_results*.json: raw output 3 pass-uri (threads 2/4/6).
- tasks/voice-bench-results*.md: summary markdown per pass.
- tasks/lessons.md: HT contention rule — cpu_threads = physical cores,
  rulează sweep nu single-point pentru ML inference compute-bound.

Budget updated în plan-uri: STT p50 1.5s → 2.5s, perceived 4s → 5s p50.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-05-27 12:52:11 +00:00

54 lines
2.5 KiB
Markdown

# Voice Bench Results — Discord Voice-to-Voice Spike
Generated: 2026-05-27 12:23:08 UTC
Budget: STT p50 < 1.50s (per CEO plan + eng review)
Trials per sample: 3
## Decision: **FALLBACK_TINY**
small.p50=3.25s >= budget; tiny.p50=0.50s < budget 1.50s. Document fallback la 'tiny' în plan (accuracy mai slabă, latency OK).
## Per-Model Summary
| Model | p50 (s) | p95 (s) | Mean RTF | Load (s) | Threads |
|-------|--------:|--------:|---------:|---------:|--------:|
| small | 3.25 (FAIL) | 3.61 | 0.80 | 10.63 | 2 |
| tiny | 0.50 (PASS) | 0.56 | 0.12 | 3.15 | 2 |
## Per-Utterance Detail
### small
| Sample | Audio (s) | Median lat (s) | RTF | Trials | Transcript |
|--------|----------:|---------------:|----:|--------|------------|
| short | 1.88 | 2.95 | 1.57 | 3.24, 2.95, 2.94 | Salut ce mai faci! |
| conversational | 2.93 | 3.10 | 1.06 | 3.09, 3.10, 3.13 | Stai puțin gândesc la asta. |
| medium | 5.99 | 3.42 | 0.57 | 3.44, 3.42, 3.34 | Am verificat în calendari și avem sedință cu echipa la 3 după amiază. |
| numbers | 5.64 | 3.24 | 0.57 | 3.24, 3.21, 3.24 | Costul total este 120 și 3 delei și 5-10 de bani. |
| question | 5.09 | 3.28 | 0.64 | 3.33, 3.27, 3.28 | Marius, vrei să-ți spun pe agenda de mâine suni la noa? |
| longer | 9.26 | 3.61 | 0.39 | 3.63, 3.61, 3.56 | Vreau mi-reamintești, di seară, verific dacă scriptul de bacup a rulat cor |
### tiny
| Sample | Audio (s) | Median lat (s) | RTF | Trials | Transcript |
|--------|----------:|---------------:|----:|--------|------------|
| short | 1.88 | 0.44 | 0.24 | 0.44, 0.45, 0.44 | Salute mai face? |
| conversational | 2.93 | 0.48 | 0.16 | 0.48, 0.48, 0.47 | Stei putin gândesc la asta. |
| medium | 5.99 | 0.51 | 0.08 | 0.51, 0.51, 0.51 | Am verificat în calendar și avem sedeință cu equipala 3 dupa am iază. |
| numbers | 5.64 | 0.50 | 0.09 | 0.50, 0.52, 0.49 | Costul total este o suta doozec și trei de lei și 50 de bani. |
| question | 5.09 | 0.51 | 0.10 | 0.51, 0.50, 0.53 | Marius, vrei să-ți pun pe agenda de muină sunilă nu a. |
| longer | 9.26 | 0.56 | 0.06 | 0.56, 0.54, 0.57 | Vreau mire am in test, disiară verific dacă scriptul de backup a rulat cor |
## Hardware Context
- Platform: Linux-6.8.12-15-pve-x86_64-with-glibc2.39
- CPU count (logical): 4
- model name : Intel(R) Core(TM) i7-6700T CPU @ 2.80GHz
- MemTotal: 6291456 kB
- MemFree: 295808 kB
- MemAvailable: 1737392 kB
## Raw Data
Vezi `tools/voice_bench_results.json` pentru JSON complet.