romfast/nlp-master - nlp-master - Gitea: Git with a cup of tea

romfast/nlp-master

Go to file

Marius Mutu 2e4bb88624 feat: al 4-lea tip de lecție — PDF (extract text cu pypdf)

Recon-ul pe practitioner M1 arată că unele lecții n-au nici audio nici
Vimeo iframe — doar un link "Descarcă rezumat PDF" (/resurse/*.pdf).
Scraperul vechi le clasifica drept "text" și le marca failed (HTML body
avea <50 chars).

- classify_lesson: detectează acum a[href$=".pdf"] → type="pdf".
- download_pdf_and_extract: download PDF via session autentificat
  (pypdf reader) → transcript .txt cu header + conținut pe pagini →
  șterge PDF sursă (preferință utilizator: nu păstrez sursele).
- Branch în main loop pentru type=="pdf".
- requirements.txt: + pypdf.
- transcribe.py: skip type in ("text", "pdf") — transcript e deja scris
  de download.py.

Limitări: PDF-uri cu conținut vizual (infografice, diagrame) extrag
puțin text. Titlul și textul inline sunt capturate; restul rămâne
pentru review manual.

Testat pe 4 PDF-uri M1 practitioner (Premisele NLP, Forme de Pacing,
Gesturi de calmare, Exercitiu Pacing): 3/4 extract bun (877-3068 bytes),
1/4 conținut predominant grafic (203 bytes).

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

2026-04-22 23:01:09 +03:00

feat(M6): sumarizări complete + caiet experiențial + cross-modul

2026-04-16 15:58:53 +03:00

refactor: parametrize pipeline cu --course flag + suport Vimeo/text

2026-04-22 14:33:19 +03:00

feat(M6): sumarizări complete + caiet experiențial + cross-modul

2026-04-16 15:58:53 +03:00

.gitattributes

fix(run.bat): restore CRLF line endings, add .gitattributes

2026-03-24 01:55:03 +02:00

.gitignore

refactor: parametrize pipeline cu --course flag + suport Vimeo/text

2026-04-22 14:33:19 +03:00

CLAUDE.md

docs: adaugă secțiunea Gstack Skills în CLAUDE.md

2026-04-22 13:50:05 +03:00

courses.py

refactor: parametrize pipeline cu --course flag + suport Vimeo/text

2026-04-22 14:33:19 +03:00

download.py

feat: al 4-lea tip de lecție — PDF (extract text cu pypdf)

2026-04-22 23:01:09 +03:00

fix_hallucinations.bat

feat: anti-hallucination params + retranscribe script for fixing broken transcripts

2026-03-24 21:17:14 +02:00

md_to_pdf.py

refactor: parametrize pipeline cu --course flag + suport Vimeo/text

2026-04-22 14:33:19 +03:00

PLAN.md

chore: normalize line endings from CRLF to LF across all files

2026-03-24 01:53:35 +02:00

PROCES_SUMARIZARE.md

docs: actualizează procesul + prompt-urile cu ce s-a folosit efectiv la M6

2026-04-16 16:05:29 +03:00

PROMPT_EXPERIENTIAL.md

docs: actualizează procesul + prompt-urile cu ce s-a folosit efectiv la M6

2026-04-16 16:05:29 +03:00

requirements.txt

feat: al 4-lea tip de lecție — PDF (extract text cu pypdf)

2026-04-22 23:01:09 +03:00

retranscribe_tail.py

feat: anti-hallucination params + retranscribe script for fixing broken transcripts

2026-03-24 21:17:14 +02:00

run_practitioner.bat

feat: run_practitioner.bat wrapper pentru cursul practitioner

2026-04-22 21:40:33 +03:00

run.bat

refactor: parametrize pipeline cu --course flag + suport Vimeo/text

2026-04-22 14:33:19 +03:00

setup_whisper.py

feat: switch to CPU-only whisper build (no GPU on this machine)

2026-03-24 02:01:39 +02:00

summarize.py

refactor: parametrize pipeline cu --course flag + suport Vimeo/text

2026-04-22 14:33:19 +03:00

SUPORT_CURS.md

feat(M6): sumarizări complete + caiet experiențial + cross-modul

2026-04-16 15:58:53 +03:00

TODOS.md

docs: actualizează procesul + prompt-urile cu ce s-a folosit efectiv la M6

2026-04-16 16:05:29 +03:00

transcribe.py

feat: al 4-lea tip de lecție — PDF (extract text cu pypdf)

2026-04-22 23:01:09 +03:00