chore: auto-commit from dashboard
This commit is contained in:
49
memory/kb/youtube/2026-04-29_ternary-models-local-ai.md
Normal file
49
memory/kb/youtube/2026-04-29_ternary-models-local-ai.md
Normal file
@@ -0,0 +1,49 @@
|
||||
# I Just Tried The Brand New Ternary Model And It's Great!
|
||||
|
||||
**Sursa:** https://youtu.be/lDlkkDs43aw
|
||||
**Data:** 2026-04-29
|
||||
**Canal:** Anything LLM / Timothy Carbat
|
||||
**Durata:** ~25 min
|
||||
**Tags:** @work @tech #local-ai #llm #ternary #quantization
|
||||
|
||||
---
|
||||
|
||||
## TL;DR
|
||||
|
||||
Prism ML a lansat primul model **ternary** viabil (Bonsai 8B Ternary), evoluția modelelor one-bit. Ternary folosește valori -1, 0, +1 în loc de -1/+1 (one-bit), ceea ce reduce eroarea de acuratețe la aproape zero față de FP16, cu resurse de 7-8x mai mici. File size ~2GB, memorie RAM ~2GB pentru un model de inteligență 8B. Rulabil local pe orice hardware (CPU, GPU, Mac M-series) via o versiune custom de llama.cpp de la Prism ML.
|
||||
|
||||
---
|
||||
|
||||
## Puncte cheie
|
||||
|
||||
1. **One-bit vs Ternary**: One-bit = valori -1 sau +1 (adunare simplă, extrem de eficient). Ternary = valori -1, 0, +1 (1.58 biți efectivi) — mai precis, aproape la nivelul FP16.
|
||||
|
||||
2. **Benchmark-uri**: Ternary Bonsai 8B → 75.5 medie vs Qwen3 8B FP16 → 79.3. One-bit → 70. Gap mic față de modelul full, enorm față de quantizare clasică la 2-bit.
|
||||
|
||||
3. **Resurse**: Model FP16 8B = 16GB VRAM. Ternary 8B = ~2GB. De 7-8x mai mic, cu pierdere minimă de acuratețe.
|
||||
|
||||
4. **Instalare**: llama.cpp custom fork de la Prism ML (GitHub releases) + GGUF model de pe HuggingFace. Nu e one-click, necesită terminal, dar e simplu.
|
||||
|
||||
5. **Integrare Anything LLM**: Se configurează ca provider OpenAI generic cu `localhost:8080/v1`. Suportă tools (web search, SQL, Gmail, Google Calendar, documente).
|
||||
|
||||
6. **Limitare actuală**: Momentan doar până la 8B parametri. Dacă Prism ML antrenează un model 27B ternary, acesta ar putea rula pe telefon cu acuratețe completă — schimbă fundamental local AI.
|
||||
|
||||
7. **Viitor local AI**: Combinat cu context window improvements (turboquant), ~80% din taskurile zilnice de inferență pot fi făcute local, fără cloud.
|
||||
|
||||
---
|
||||
|
||||
## Quote-uri notabile
|
||||
|
||||
> "This is the future of local AI. Imagine being able to run Qwen3 27B with its full accuracy on your phone."
|
||||
|
||||
> "Benchmarks should be used as a useful gauge to just eyeball if a model is worth your time — the only way to know if a model is good is to download it."
|
||||
|
||||
> "We're saving on both sides of the puzzle and I really don't see how local models don't win."
|
||||
|
||||
---
|
||||
|
||||
## Idei acționabile
|
||||
|
||||
- [ ] Testează Ternary Bonsai 8B local (LXC Ollama 104 sau direct pe server) — file size ~2GB, compatibil cu llama.cpp custom
|
||||
- [ ] Urmărește Prism ML pentru modele >8B (27B ternary ar fi game-changer pentru Chatbot Maria sau asistență locală)
|
||||
- [ ] Evaluează înlocuirea unor apeluri cloud API cu model ternary local pentru taskuri repetitive (reducere costuri)
|
||||
Reference in New Issue
Block a user