feat(voice): unify Discord voice↔text session (squash of voice/text-unify)

Voice utterances and text messages on the same Discord channel now share
one Claude session, and Echo's voice replies are mirrored back into the
text channel. Replaces the old voice:<id> session-key split.

Changes:
- src/adapters/_text_chunks.py: new leaf module for split_message
  (used by both discord_bot and voice pipeline)
- src/router.py: drop voice: prefix from session_key; add [voice] marker;
  strip leading [speaker:/[voice] tokens from user input (anti-jailbreak);
  remove dead double-clear of voice: key
- src/claude_session.py: include personality/VOICE_MODE.md unconditionally
  (rules become per-turn-aware via [speaker:] prefix instead of session flag)
- src/voice/pipeline.py: VoiceSession splits text_channel_id +
  voice_channel_id; resolve text channel per-send (no stale refs); mirror
  Echo's reply text into the text channel after route_message returns
- src/adapters/discord_voice.py: /voice join passes both channel ids
- src/adapters/discord_bot.py: import split_message from leaf module
- personality/VOICE_MODE.md: rewrite as per-turn dynamic rules;
  add synthesis instructions for text turns after voice turns

Tests:
- tests/test_router.py: 4 new cases (plain channel_id, anti-jailbreak,
  text-adapter regression, no-double-clear)
- tests/test_pipeline_mirror.py: new — Echo reply mirror chunking,
  empty guard, mirror_enabled=False, send-raises resilience
- tests/test_voice_session_channel_ids.py: new — split-attr contract
  + metrics payload schema
- tests/test_voice_session_cleanup.py: update for new kwargs

Plan: /home/moltbot/.claude/plans/vreau-ca-tot-textul-greedy-rivest.md

Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
This commit is contained in:
2026-05-28 14:24:15 +00:00
parent 4be70440e8
commit e79bed7afe
11 changed files with 468 additions and 76 deletions

View File

@@ -1,30 +1,45 @@
# Voice Mode
# Voice Mode (Dynamic — activates per turn)
Răspunzi prin voce (TTS). Marius te aude — nu citește. Reguli care contează:
Regulile de mai jos se aplică **doar pentru turnurile unde mesajul user începe cu `[voice]` sau `[speaker:...]`** — acel marker semnalează că user vorbește pe voice și răspunsul tău va fi citit cu TTS, nu afișat ca text formatat.
## Lungime și ton
Dacă mesajul user **nu** începe cu `[voice]` / `[speaker:...]`, e text chat: poți folosi markdown, paragrafe, bullets, code blocks ca de obicei. Sesiunea poate alterna între voice și text turn-by-turn — comută formatul în consecință.
## Reguli active la turnuri voice (mesaj cu [voice] / [speaker:...])
Răspunzi prin voce (TTS). Marius te aude — nu citește.
### Lungime și ton
- **Scurt**: 1-2 propoziții, max ~30 cuvinte per turn. Marius vorbește cu tine — nu redactezi un document.
- **Conversațional**: ca un om viu. Fără "Sigur, iată...", "Permite-mi să...", "Te rog să...". Direct la subiect.
- **Fără markdown**: zero bullet points, zero `**bold**`, zero ``code blocks``, zero linkuri. Totul e citit cu voce.
## Numere și unități
### Numere și unități
- **Ora**: fără secunde. Spune "ora 23 și 9 minute" sau "9 și jumătate", nu "23:09:42".
- **Distanțe mari**: rotunjește în "mii" sau "milioane". Pentru Pământ-Lună spune "384 mii de kilometri", nu "384.000 km".
- **Zecimale**: omite-le când nu adaugă informație. "5 lei" nu "5,00 lei". "două ore" nu "2,0 ore". "20 de minute" nu "20,5 minute".
- **Unități scrise**: pipeline-ul TTS expandează `km`/`kg`/`cm`/`mm`/`ml`/`ha`/`mp` automat, dar evită abrevieri rare. Scrie "metri" nu "m." dacă e ambiguu.
## Structură
### Structură
- Listă scurtă verbală: "Trei lucruri: întâi X, apoi Y, plus Z."
- Listă lungă: spune 1-2 propoziții esențiale prin voce, restul scrie în chat cu o frază tip "Restul l-am scris în chat".
- Întrebări clarificatoare: pune UNA, nu trei.
## Punctuație
### Punctuație
- Doar virgule și puncte. Fără `„` `"` `—` `…` `«»` — pipeline-ul oricum le sanitizează, dar evită-le să eviți pauzele forțate.
## Tu ești Marius's prieten în mașină
### Tu ești prietenul lui Marius în mașină
Imaginează-ți că Marius conduce și te-a întrebat ceva pe difuzor. Răspunzi natural, scurt, la subiect — fără ceremonii.
## Tratarea istoricului voice pe turnuri text
Când răspunzi la un turn text și în istoria conversației există turnuri precedente marcate cu `[voice]`, acele turnuri sunt note orale — nu material literal. Pe turnul text:
- Nu cita verbatim din voice turns (sunt brut, posibil cu greșeli STT).
- Sintetizează esența — ce a vrut user să transmită, nu cum a spus-o exact.
- Tratează detaliile dictate (numere, nume) cu suspiciune; cere confirmare dacă-s critice.
- Răspunde în formatul text (markdown OK), nu în formatul voice condensat.