nlp-master

Author	SHA1	Message	Date
Marius Mutu	6ee53133b7	feat(practitioner): structură per-modul + PDF-uri sursă + split 2-PC - audio/Modul {N}/filename.mp3 — fiecare modul în subdirector separat pentru copiere pe telefon și transfer între PC-uri. - PDF-urile se păstrează ca sursă în summaries/pdf/ (fără extract txt). - transcribe_status="pdf_source_only" pentru lecțiile PDF → summarize.py le filtrează automat. - Fix coliziune manifest transcript_path (stem-based, nu preserve prior). - .bat per modul (M2-M8) + dispatchers run_pc1_all (M2-M5) + run_pc2_all (M6-M8) pentru partajare work pe 2 PC-uri. - prepare_pc2_bundle.py: zip cu scripts + manifest + .env + PDFs pentru PC2 (self-installs whisper.cpp/model/ffmpeg la primul run). - M1 whisper complete (49/49 audio+vimeo transcrise). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-23 08:48:58 +03:00
Marius Mutu	2e4bb88624	feat: al 4-lea tip de lecție — PDF (extract text cu pypdf) Recon-ul pe practitioner M1 arată că unele lecții n-au nici audio nici Vimeo iframe — doar un link "Descarcă rezumat PDF" (/resurse/*.pdf). Scraperul vechi le clasifica drept "text" și le marca failed (HTML body avea <50 chars). - classify_lesson: detectează acum a[href$=".pdf"] → type="pdf". - download_pdf_and_extract: download PDF via session autentificat (pypdf reader) → transcript .txt cu header + conținut pe pagini → șterge PDF sursă (preferință utilizator: nu păstrez sursele). - Branch în main loop pentru type=="pdf". - requirements.txt: + pypdf. - transcribe.py: skip type in ("text", "pdf") — transcript e deja scris de download.py. Limitări: PDF-uri cu conținut vizual (infografice, diagrame) extrag puțin text. Titlul și textul inline sunt capturate; restul rămâne pentru review manual. Testat pe 4 PDF-uri M1 practitioner (Premisele NLP, Forme de Pacing, Gesturi de calmare, Exercitiu Pacing): 3/4 extract bun (877-3068 bytes), 1/4 conținut predominant grafic (203 bytes). Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-22 23:01:09 +03:00
Marius Mutu	d22038d002	refactor: parametrize pipeline cu --course flag + suport Vimeo/text Un singur set de scripturi acum rulează pe orice curs configurat în courses.py. Master rămâne la rădăcina repo (backward-compat M1-M6); cursuri noi (ex. practitioner la shop.cursnlp.ro) primesc un root dedicat (nlp-practitioner/) cu propriile artefacte. - courses.py: config dict (master, practitioner) + course_paths() + validate_manifest_course() (manifest fără course_key = master). - download.py: --course + --modules; trei tipuri de lecții (audio HTTP, Vimeo iframe via yt-dlp audio-only, text-only cu captură HTML); merge cu manifest existent în loc de replace; strip [Audio] pentru backward-compat paths. - transcribe.py: --course + --modules; skip type==text; path-uri prin course_paths(); validare course_key. - summarize.py: --course + --compile; template prompt folosește course['name']; scrie SUPORT_CURS.md cu LF explicit (WSL2 baseline). - md_to_pdf.py: --course resolv-ă summaries_dir / pdf_dir per curs. - run.bat: detectează master\|practitioner ca primul argument, propagă --course la sub-scripturi; backward-compat run.bat [modules]. - requirements.txt: + yt-dlp. - .gitignore: nlp-practitioner/audio/, audio_wav/, scratch_recon.py, tmp_recon/. - tests/test_regression.sh: 5 gate-uri read-only (import, schema, disk-coherence, SUPORT_CURS byte-identic, cross-course isolation). Regression curs master: PASS (manifest + SUPORT_CURS.md hash identic cu baseline /tmp/suport_before.md). Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-22 14:33:19 +03:00
Marius Mutu	763999f3a9	feat: anti-hallucination params + retranscribe script for fixing broken transcripts - transcribe.py: add --max-context 0, --entropy-thold 2.4, --max-len 60, --suppress-nst, --no-fallback to whisper.cpp to prevent hallucination loops - transcribe.py: remove interactive quality gate (runs unattended now) - run.bat: remove pause prompts for unattended operation - retranscribe_tail.py: new script that detects hallucination bursts in SRT files, extracts and re-transcribes only the affected audio segments, then splices the result back together. Drops segments that re-hallucinate (silence/music). Backs up originals to transcripts/backup/. - fix_hallucinations.bat: Windows wrapper for retranscribe_tail.py Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-24 21:17:14 +02:00
Marius Mutu	696c04c41c	chore: normalize line endings from CRLF to LF across all files Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-03-24 01:53:35 +02:00
Marius Mutu	bbc5884545	NLP Master: pipeline download + transcribe + summarize - run.bat: one-click pipeline (download, convert, transcribe) - download.py: fetch audio from course platform - transcribe.py: whisper.cpp batch transcription (CPU, WAV 16kHz) - MP3->WAV conversion via ffmpeg - --modules filter for splitting work across machines - summarize.py: generate summaries from transcripts - setup_whisper.py: auto-download whisper.cpp, ffmpeg, and model - Medium model (q5_0) instead of large to avoid VRAM crashes Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-24 01:37:13 +02:00

6 Commits