chore(kb): notițe youtube mai, fix email tools, update newsletter/anaf-monitor

Adaugă 4 notițe YouTube (llama.cpp, Mario Zechner, bonificatie impozit,
AI scaffolding) + notă coaching grok. Actualizează index KB.
Fix email_digest și email_forward. Update newsletter cercetasi + cron jobs.
ANAF monitor hashes/snapshots/versions la zi.

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
This commit is contained in:
2026-05-13 21:02:55 +00:00
parent f04e033dbe
commit 3570d9a625
16 changed files with 676 additions and 72 deletions

View File

@@ -0,0 +1,105 @@
# Running a 35B AI Model on 6GB VRAM, FAST (llama.cpp Guide)
**URL:** https://youtu.be/8F_5pdcD3HY
**Data:** 2026-05-06
**Durata:** 15:05
**Tags:** @work @tech #llama.cpp #AI #local-AI #hardware
---
## TL;DR
Cum rulezi Qwen3 35B (model Mixture of Experts) pe un GPU de 8 ani cu 6GB VRAM la 17 token/s și 256K context — prin 5 flag-uri llama.cpp specifice arhitecturii MoE. Defaulturile sunt bottleneck-ul, nu hardware-ul.
---
## Setup de test (worst-case floor)
- GPU: GTX 1060, 6GB VRAM, PCIe Gen3
- CPU: i3 8100, 4 core, fără hyperthreading
- RAM: 24GB DDR4
- Model: **Qwen3 35B A3B** — MoE, 35B parametri total, dar doar 3B activi per token (8 experți din 256 per layer)
---
## Cele 5 flag-uri (de la 3 tok/s → 17 tok/s)
### Flag 1: `--n-cpu-moe 41` (+230%)
- **Problema:** Split naiv (jumătate GPU, jumătate CPU pe layers) = 3 tok/s. Fiecare layer aduce toți experții cu el pe CPU → PCIe se înfundă.
- **Soluția MoE:** Experții stau "adormiți" majoritatea timpului. Pune TOATE expert-blocks pe CPU (RAM), restul pe GPU.
- **Rezultat:** 3 → 10 tok/s
### Flag 2: `--no-mmap` (+35%)
- **Problema:** llama.cpp face "lazy loading" din disk (mmap). Fiecare expert neîncărcat → page fault → pauză.
- **Soluția:** Încarcă toți cei 20GB în RAM la start. Niciun read din disk la inferență.
- **Rezultat:** 10 → 13.5 tok/s
### Flag 3: `--n-cpu-moe 35` (ajustare fină, +26%)
- 2GB VRAM liberi → readuci 6 layere de experți înapoi pe GPU
- Trade-off: context scade 100K → 64K (mai puțin room pentru KV cache)
- **Rezultat:** 13.5 → 17 tok/s
### Flag 4: Turbo Quant KV cache (`--cache-type-k q4_0 --cache-type-v q3_0`)
- **Problema:** KV cache crește liniar cu contextul → mânâncă VRAM
- **Soluția:** Google DeepMind Turbo Quant — rotație aleatoare + quantizare agresivă (4bit keys, 3bit values), fără pierdere vizibilă de calitate
- Asimetrie justificată: grouped query attention 8:1 → keys suportă compresie mai mare
- **Rezultat:** Context 64K → **256K** la același 17 tok/s (5.9/6GB VRAM)
### Flag 5: `--mlock` (stabilitate pe termen lung)
- **Problema:** Kernelul paginează experții din RAM pe disk după ore de idle → stutter la token 1000
- **Soluția:** mlock — spui kernelului "nu atinge RAM-ul ăsta". Necesită 3 locuri: LXC/container permisiuni, Docker `--cap-add IPC_LOCK`, flag llama.cpp
- **Rezultat:** mlocked: 12KB → 16GB. Sistem stabil după o săptămână.
---
## Ce NU a funcționat: Speculative Decoding
- Idee: draft model mic (Qwen3 0.8B) ghicește 8 token-uri → big model verifică în batch
- Rezultat: **17 → 11 tok/s** (mai lent)
- De ce eșuează pe MoE:
1. **MoE + batching = memory thrash**: 8 tokeni în batch pot activa 64 experți diferiți/layer → nu mai e batch real
2. **SSM layers (state space)**: 30/40 layers sunt SSM — secvențiale prin definiție, nu se pot paraleliza
---
## Rezultat final
```
Model: Qwen3 35B A3B (MoE)
VRAM: 5.9 / 6 GB
Context: 256,000 tokens
Viteză: 17 tok/s
Hardware: GTX 1060, 8 ani vechime
```
---
## Puncte cheie
- **MoE ≠ dense**: Experții "dormiți" sunt mai ieftini în RAM decât pe GPU — inversul intuiției normale
- **Defaulturile sunt bottleneck-ul, nu hardware-ul** — 5 flag-uri = 5.6x speedup
- **No-mmap e contra-intuitiv**: "lazy loading" sună smart, dar pentru inferență e catastrofal
- **Turbo Quant (DeepMind)**: 4bit/3bit KV cache fără pierdere vizibilă — folosește rotație aleatoare înainte de quantizare
- **mlock e critic pentru producție** — fără el, sistemul degradează silențios după ore
- **Speculative decoding nu merge pe MoE+SSM** — arhitectura contează, nu doar parametrii
---
## Quote-uri
> "The hardware isn't the bottleneck anymore. The defaults are."
> "Dead weight if you're sitting on the GPU, but cheap rent if you're sitting in RAM."
> "Twice the context, twice the memory." — KV cache crește liniar
> "No code, no retraining, no quantization tricks, just telling the OS: stop being clever about my RAM."
---
## Relevanță pentru Marius
- Rulezi modele mari local pe hardware vechi/modest — **fără cloud, fără cost lunar**
- Relevant pentru LXC 104 (Ollama) — flag-urile sunt compatibile și cu Ollama (via GGUF + llama.cpp backend)
- Qwen3 35B cu 256K context = poate procesa cod-sursă întreg ca context
- Flag-urile `--n-cpu-moe` sunt specifice MoE — nu se aplică la all-minilm (dense, mic)

View File

@@ -0,0 +1,58 @@
# Tokens can make you rich, just do this Mario Zechner
**Sursa:** https://youtu.be/sqtX2OmgOF0
**Data:** 2026-05-06
**Durată:** 47:41
**Tags:** @work @growth
---
## TL;DR
Interviu cu Mario Zechner, creatorul agentului de cod Pi (pi.dev), despre agenți AI, tokeconomics, și viitorul muncii. Teza centrală: agenții fac oamenii mult mai productivi, dar nu înlocuiesc judecata umană. Cine controlează contextul și infrastructura câștigă. Modelele open weights (DeepSeek, Kimi) vor democratiza accesul. Architecture thinking devine mai valoros decât a ști să scrii cod.
---
## Puncte cheie
- **De ce a creat Pi**: Claude Code devenise instabil, se schimba constant (harness changes), îi strica workflow-urile zilnic. A trecut la Pi în octombrie 2025 — tool minimal, stabil, sub controlul lui deplin.
- **Context rot = degradare reală**: Multe "degradări de model" raportate de utilizatori sunt de fapt schimbări în harness (Claude Code), nu în model. Zechner nu a experimentat degradări în Pi, care folosește aceleași modele Claude.
- **Unlock masiv: non-tehnicii cu agenți**: Soția lui (lingvistă) și-a înmulțit output-ul scientific de 5× folosind Claude Code pentru scripturi Python pe date Excel. Nu știe să programeze, dar știe inputul și outputul. Același pattern în companii mici (6-10 oameni) care bat echipe de 50-100.
- **Ralph loops (agenți autonomi)**: Zechner e sceptic față de "dark factories" și PRD loops. Funcționează doar când ai **funcție obiectiv clară** + **criterii de succes verificabile** (modelul lui Karpathy pentru auto-research). Un loop care iterează pe spec file fără feedback obiectiv = cargo culting.
- **Tokeconomics**: Intelligence trebuie să fie accesibilă tuturor. Modelele open weights (DeepSeek, Kimi K2.6) comprimă prețurile. Kimi rulează pe un GPU cluster propriu la cost comparabil cu API-ul Anthropic. 5-10 persoane pot împărți un cluster și să iasă mai ieftin.
- **Viitorul muncii**: Seniori + agent pot înlocui 2 juniori ca output, dar echilibrul se va restabili (companiile rămân fără pipeline). Nu UBI, ci upskilling forțat. Consumer vs creator — aceeași logică ca la content.
- **Architecture > syntax**: LLMs sunt slabi la design de sisteme pentru că training data nu conține procesul de gândire arhitecturală, ci doar codul rezultat (care e în majoritate mediocru). 90% din codul din training = garbage.
- **Ideile de business**: LLM-ul e prost la generarea ideii inițiale (interpolează în "norul" ce a văzut), bun la validare și completare ("ai uitat de X").
- **Europa vs USA**: Problema principală e legală (no Delaware equivalent), nu regulatorie. Investiția și ESOP-urile sunt mult mai complexe în Europa. Mișcarea EU Inc. ar putea schimba asta.
---
## Quote-uri
> "The code doesn't need to be perfect. The code can be total slop. As long as it generates time saving."
> "People who have the means of production in the sense that they can afford the tokens have a massive edge."
> "A senior in a knowledge work position can now replace two juniors with an agent and still have their own output."
> "Don't let the agent design things for you because it learned all of that from the internet. And on the internet, it's my old shitty code... 90% of that code is shit."
> "I've never seen [a PRD Ralph loop] work. If people make it work, more power to them. For me, it's cargo culting."
> "The squishy human parts, the things that make you *you* and make your business successful — that's hard to encode in tokens."
---
## Idei acționabile
- [ ] @work: Workflow-ul lui Zechner cu Pi — prompt templates per tip de task (issue analysis, PR review, feature impl). Adaptabil cu Claude Code.
- [ ] @work: Non-tehnicii din echipă pot fi productivi dacă știu inputul și outputul — nu e nevoie să înțeleagă codul. Angajatul nou ar putea beneficia de asta.
- [ ] @growth: Architecture thinking > syntax. Investiția în design și gândire sistemică are randament mai mare decât a ști să scrii cod.

View File

@@ -0,0 +1,45 @@
# Bonificația de 3% din impozit — Răspunsul Ministerului Finanțelor (2025)
**Sursa:** https://www.facebook.com/share/v/1GXgob8U5t/
**Autor:** Cristi Rapcencu
**Data notei:** 2026-05-08
**Tags:** @work @anaf #fiscal #bonificatie #impozit-profit #micro
---
## TL;DR
Ministerul Finanțelor a răspuns oficial (luni, 27...) unei adrese trimise de Camera Consultanților Fiscali privind tratamentul contabil și fiscal al **bonificației de 3%** acordate de ANAF la finalul anului precedent.
Răspunsul complet este publicat pe **necece.fiscal.ro** (prima pagină a site-ului consultanților fiscali).
---
## Puncte cheie
**La plătitorii de impozit pe profit:**
- Bonificația se recunoaște ca **venit** (cont 758 — venituri diverse)
- Venitul este considerat **neimpozabil**
- Temeiul legal: art. 23 lit. d din Codul Fiscal (venituri din anularea/recuperarea unor cheltuieli nedeductibile)
- Valabil inclusiv pentru **anul 2024** (dacă nu s-au finalizat situațiile financiare)
**La microîntreprinderi:**
- Referință: art. 53 — baza impozabilă a microîntreprinderilor
- Venitul din bonificație este **impozabil** (nu se regăsește pe lista veniturilor excluse de la art. 53)
---
## Concluzie practică
| Tip contribuabil | Tratament bonificație 3% |
|-----------------|--------------------------|
| Impozit pe profit | Venit **neimpozabil** (art. 23 lit. d) |
| Microîntreprindere | Venit **impozabil** (baza art. 53) |
Dacă nu s-au finalizat situațiile financiare pe 2024, se poate reveni și corecta tratamentul fiscal al acestui venit.
---
## Transcript original (Whisper)
V-am să vă aduc la cunostință că luni 27 M. de finanție a respons unei adrese mise de camera consultanților Fiscal, responsul m. de finanție il găsim pe siteul consultanților Fiscal, acolo chiar pe prima pagi, necece Fiscal.ro, încecepe veste tratamentul bonificație de 3.00, acordată de către ANAF pe finalul anului precedent. Concluția care este la plătitorii de impozii pe profit, bonificație ani se sugereaza, colonise, recomandă, o monografie contabilă, în sensu că bonificație a se recunoaște pe venitur, pe un 7.5.8. Iar venitul este considerat neimposabil. Și acum și oamă presentat n-a întrecut, putem să ne legăm de acel articul 23 lităra de de la impozii pe profit, și acest venitul putem considera un venit din anularea din recuperarea uniciel ternet deductibile, ca atare și misterul de finance se pronunță și pe cisează că inclusiv pe anul trecut, acest venit este un venit neimposabil. În casul microntreprinderi lor în să se face trimitere la articolo 53, la baza impoziabila microntreprinderi lor, și anume venitul este unul imposabil. Atât timp că nu se regăsește pe lista de venituri acceptate, acolo de la articolo 53, ca mă stă este recomandarea misterul de finance la microntreprinderi venitul este imposabil, la platitorii de impozii pe profit un venit neimposabil. Dacă nu v-ați închis, nu v-ați definitivat anul 2025, n-ați făcut toate situatiile financiare, puteți să reveniți și în casul în care nu ați procedat așa, să reconsiderați acolo tratamentul fiscal al acelui venit.

View File

@@ -0,0 +1,56 @@
# You're Wasting 40% Of Your AI Time On Something Fixable
**URL:** https://youtu.be/647pSnX5H_Y
**Durata:** 27:13
**Data:** 2026-05-09
**Tags:** @work @growth @automation
---
## TL;DR
Oamenii pierd masiv timp cu AI pentru că nu înțeleg "harness-ul" din jurul LLM-ului — stratul de scaffolding care face diferența între un model generic și un agent care chiar lucrează pentru tine. Videoconferința descompune clar 5 componente: Prompt, Skill, Plugin, MCP/Connector, Hook/Script — și când să folosești fiecare. Modelul mental corect e că acestea sunt cărămizi Lego care se construiesc unele peste altele, nu rivale.
---
## Puncte cheie
- **Prompt** = folosit O singură dată, specific momentului. NU e bun pentru task-uri repetitive. Indexul prea mare pe prompt = pierdere de ore pe săptămână.
- **Skill** = fișier markdown cu un proces clar, repetabil. Reutilizabil cross-tool (Codex, Claude Code etc.). 20% din skills = 80% din valoare — găsește-le pe alea.
- **Plugin** = pachet complet: include skills + MCP + hooks + assets + comenzi. Dacă workflow-ul trebuie să călătorească, să fie instalat de echipă sau are nevoie de date live → plugin.
- **MCP / Connector** = "priză universală" la date live (Salesforce, Figma, GitHub, Slack). Un plugin poate *conține* un MCP, dar nu sunt același lucru.
- **Hook / Script** = verificări deterministe. Nu lăsa modelul să "imagineze" că rulează testele — rulează-le efectiv. Dacă JSON-ul trebuie să fie valid, verifică cu un script, nu cu LLM-ul.
- **Regula de aur:** Dacă o faci o singură dată → prompt. Dacă repeți → skill. Dacă workflow-ul are date live / trebuie distribuit → plugin. Dacă ai nevoie de acces la alt sistem → MCP. Dacă trebuie verificat determinist → script/hook.
- **Non-tehnicii pot construi plugins în 2026** — nu mai e nevoie de cod. Domain knowledge (știi când output-ul e greșit, știi ce pași se uită) e mai valoros decât coding skills acum.
- **Cel mai mare risc:** să faci un plugin prea mare (un singur plugin pentru tot customer success = greșeală; separă în 3-8 plugins cu granițe clare).
- **Plugin ≠ App Store addon.** Plugin = pachet de workflow reutilizabil. Întrebarea corectă nu e "ce pot instala?" ci "ce parte din munca mea are structură suficient de repetabilă să fie pachetată?"
---
## Quote-uri
> "You are literally the human plugin — you copy from one app, paste into chat, ask the model to reason, go get data from somewhere else, check the result, come back. If you don't want to be the human plugin, consider making an actual plugin."
> "A good agent workflow is designed so that the parts that are deterministic are correctly framed as scripts or correctly framed as hooks. Some things should not be left to the model."
> "If you do it once, it's a prompt. If you do it repeatedly, it's a skill. If the workflow needs to travel or other people need to install it — if it needs tools or assets or connectors — it's a plugin."
> "Agentic scaffolding must not stay vague. If scaffolding just means 'some engineering stuff around the agent' to most of us, then only engineers can ever participate in designing it. That is an old 2022-era problem."
> "The people who understand the work must be the ones who put that knowledge in."
---
## Relevanță pentru Marius / Echo
- **Echo deja face asta bine:** skills în `personality/*.md`, hooks în `cron/jobs.json`, MCP-uri implicite prin tools/. Arhitectura e solidă.
- **Oportunitate:** Câteva workflow-uri ROA (procesare bonuri, rapoarte ANAF, facturare) ar putea fi "plugins" formale — documentate ca procese reutilizabile.
- **Pentru clienți noi:** știi să construiești aceste structuri = skill rar și valoros în piața actuală.