chore(voice): spike STT latency benchmark + HT contention lesson
Pas 1 (BLOCKING) din Discord voice-to-voice test plan. Sweet spot empiric pe i7-6700T: faster-whisper small int8 @ cpu_threads=4 → p50 2.25s, p95 2.64s, mean RTF 0.46. Curba HT: 2t=3.25s → 4t=2.25s (sweet) → 6t=2.79s (regres +24% prin contention). tiny respinge — halucinează RO. - tools/voice_bench.py: harness benchmark cu 8 sample-uri RO sintetizate via Supertonic API, măsoară p50/p95/RTF pentru small+tiny pe N threads. - tools/voice_bench_results*.json: raw output 3 pass-uri (threads 2/4/6). - tasks/voice-bench-results*.md: summary markdown per pass. - tasks/lessons.md: HT contention rule — cpu_threads = physical cores, rulează sweep nu single-point pentru ML inference compute-bound. Budget updated în plan-uri: STT p50 1.5s → 2.5s, perceived 4s → 5s p50. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
This commit is contained in:
53
tasks/voice-bench-results-threads2.md
Normal file
53
tasks/voice-bench-results-threads2.md
Normal file
@@ -0,0 +1,53 @@
|
||||
# Voice Bench Results — Discord Voice-to-Voice Spike
|
||||
|
||||
Generated: 2026-05-27 12:23:08 UTC
|
||||
Budget: STT p50 < 1.50s (per CEO plan + eng review)
|
||||
Trials per sample: 3
|
||||
|
||||
## Decision: **FALLBACK_TINY**
|
||||
|
||||
small.p50=3.25s >= budget; tiny.p50=0.50s < budget 1.50s. Document fallback la 'tiny' în plan (accuracy mai slabă, latency OK).
|
||||
|
||||
## Per-Model Summary
|
||||
|
||||
| Model | p50 (s) | p95 (s) | Mean RTF | Load (s) | Threads |
|
||||
|-------|--------:|--------:|---------:|---------:|--------:|
|
||||
| small | 3.25 (FAIL) | 3.61 | 0.80 | 10.63 | 2 |
|
||||
| tiny | 0.50 (PASS) | 0.56 | 0.12 | 3.15 | 2 |
|
||||
|
||||
## Per-Utterance Detail
|
||||
|
||||
### small
|
||||
|
||||
| Sample | Audio (s) | Median lat (s) | RTF | Trials | Transcript |
|
||||
|--------|----------:|---------------:|----:|--------|------------|
|
||||
| short | 1.88 | 2.95 | 1.57 | 3.24, 2.95, 2.94 | Salut ce mai faci! |
|
||||
| conversational | 2.93 | 3.10 | 1.06 | 3.09, 3.10, 3.13 | Stai puțin să mă gândesc la asta. |
|
||||
| medium | 5.99 | 3.42 | 0.57 | 3.44, 3.42, 3.34 | Am verificat în calendari și avem sedință cu echipa la 3 după amiază. |
|
||||
| numbers | 5.64 | 3.24 | 0.57 | 3.24, 3.21, 3.24 | Costul total este 120 și 3 delei și 5-10 de bani. |
|
||||
| question | 5.09 | 3.28 | 0.64 | 3.33, 3.27, 3.28 | Marius, vrei să-ți spun pe agenda de mâine să suni la noa? |
|
||||
| longer | 9.26 | 3.61 | 0.39 | 3.63, 3.61, 3.56 | Vreau să mi-reamintești, di seară, să verific dacă scriptul de bacup a rulat cor |
|
||||
|
||||
### tiny
|
||||
|
||||
| Sample | Audio (s) | Median lat (s) | RTF | Trials | Transcript |
|
||||
|--------|----------:|---------------:|----:|--------|------------|
|
||||
| short | 1.88 | 0.44 | 0.24 | 0.44, 0.45, 0.44 | Salute mai face? |
|
||||
| conversational | 2.93 | 0.48 | 0.16 | 0.48, 0.48, 0.47 | Stei putin să mă gândesc la asta. |
|
||||
| medium | 5.99 | 0.51 | 0.08 | 0.51, 0.51, 0.51 | Am verificat în calendar și avem sedeință cu equipala 3 dupa am iază. |
|
||||
| numbers | 5.64 | 0.50 | 0.09 | 0.50, 0.52, 0.49 | Costul total este o suta doozec și trei de lei și 50 de bani. |
|
||||
| question | 5.09 | 0.51 | 0.10 | 0.51, 0.50, 0.53 | Marius, vrei să-ți pun pe agenda de muină să sunilă nu a. |
|
||||
| longer | 9.26 | 0.56 | 0.06 | 0.56, 0.54, 0.57 | Vreau să mire am in test, disiară să verific dacă scriptul de backup a rulat cor |
|
||||
|
||||
## Hardware Context
|
||||
|
||||
- Platform: Linux-6.8.12-15-pve-x86_64-with-glibc2.39
|
||||
- CPU count (logical): 4
|
||||
- model name : Intel(R) Core(TM) i7-6700T CPU @ 2.80GHz
|
||||
- MemTotal: 6291456 kB
|
||||
- MemFree: 295808 kB
|
||||
- MemAvailable: 1737392 kB
|
||||
|
||||
## Raw Data
|
||||
|
||||
Vezi `tools/voice_bench_results.json` pentru JSON complet.
|
||||
Reference in New Issue
Block a user