Files
clawd/memory/kb/youtube/2026-03-31_cheapest-path-96gb-vram-intel-arc-b60.md

7.3 KiB

I Tested the Cheapest Path to 96GB of VRAM

Video: https://youtu.be/-aEHitayNts
Duration: 19:48
Saved: 2026-03-31
Tags: #hardware #ai #vram #intel #gpu @work


📋 TL;DR

Testează 4x Intel ARC Pro B60 (24GB fiecare = 96GB VRAM total) ca alternativă ieftină la GPU-uri NVIDIA Pro ($650-800/card vs $2000-8500). Performanța reală: 574 tokens/sec peak cu DeepSeek R1 distilled (64 concurrency), dar Intel LLM Scaler stack rămâne în urmă cu modelele noi (lipsesc Qwen 3.5, GLM Flash 4.7). Concluzie: VRAM ieftin e util pentru agenți/office multi-user cu modele mari BF-16, dar stabilitatea și suportul modelelor noi sunt provocări.


🎯 Concepte Principale

Intel ARC Pro B60 - Specificații

  • 24GB GDDR6 per card ($650-800 Newegg/Sparkle)
  • 456 GB/sec memory bandwidth
  • 200W board power
  • 4 cards = 96GB VRAM total în server Xeon
  • Pitch: Cea mai affordabilă densitate VRAM per sistem (vs NVIDIA RTX 6000 Pro $8500)

Comparație cu Competiția (Same Price Range)

GPU VRAM Bandwidth Power Price Strategy
Intel B60 24GB 456 GB/s 200W $650-800 Max VRAM density
AMD RX 7900 XT 20GB 800 GB/s 315W ~$800 High bandwidth
NVIDIA RTX Pro 2000 16GB GDDR7 288 GB/s 70W $800 Low power, no cables
  • AMD: Mai puțin VRAM, mult mai mult bandwidth (800 GB/s)
  • NVIDIA: GDDR7 nou, putere minimă (alimentat din PCI bus), card mic

Benchmark Results (Single GPU, Qwen 34B BF-16)

Concurrency 1 (Chat scenario):

  • NVIDIA Pro 2000: 5,223 t/s prompt | 27 t/s generation | 69W
  • Intel B60: 22 GB folosit, 17% utilizare | 1,400 t/s prompt | 45 t/s gen | 120W
  • AMD RX 7900 XT: 5,211 t/s prompt | 58 t/s gen (fastest) | ~400W

Concurrency 32 (Agentic/Multi-user):

  • NVIDIA Pro 2000: 1,313 t/s prompt | 232 t/s gen
  • Intel B60: 7,941 t/s prompt | 497 t/s gen
  • AMD RX 7900 XT: 5,114 t/s prompt | 431 t/s gen

4x Intel B60 (96GB Total) - Real Usage

System Power:

  • Idle: 372W (4 GPUs + Xeon server)
  • Load: 800-940W peak (dar GPU-urile nu ating 200W max, doar 120-130W each)
  • Noise: "Like an airplane" - foarte zgomotos sub load

Models Tested:

  1. DeepSeek R1 Distilled (Qwen 32B BF-16) - 65GB disk

    • Concurrency 64: 574 t/s peak | 289 t/s sustained gen | 1,425 t/s prompt
    • Concurrency 32: 512 t/s peak | 309 t/s sustained | 2,931 t/s prompt
    • Utilization: 21-22% per GPU, 24GB memory maxed
  2. Qwen Coder 30B MOE (BF-16) - 61GB disk

    • Concurrency 1: 12,800 t/s prompt | 27 t/s gen
    • Concurrency 32: Crashes - prea multe requests, instabil
    • Load time: 7 minutes (VLM startup foarte lent pentru modele mari)
  3. VS Code Agent Usage (Real-world):

    • DeepSeek model: 15-17% util | 114-120W per GPU | ~800W system
    • 27 t/s generation (slower but usable)
    • Recunoaște fișiere, răspunde la întrebări cod

Intel LLM Scaler Stack - Limitări Majore

Problema: Stack-ul Intel rămâne în urmă ~1 lună cu modelele noi

  • Available: DeepSeek, Qwen MOE, GLM Flash (partial)
  • Missing: Qwen 3.5 (latest coding model), GLM Flash 4.7 (nu se încarcă)
  • Versiune VLM: Behind latest release (mid-March 2026)

Implicații:

  • Nu poți folosi cele mai noi modele imediat
  • Trebuie să folosești Intel LLM Scaler repo (GitHub open-source)
  • Cadență update: ~1 lună întârziere

Capcane Descoperite

  1. Heat & Noise: Foarte fierbinți (burn risk) și zgomotoși sub load
  2. Instabilitate Concurrency: Qwen Coder 30B crashes la concurrency 32
  3. Load Times: 7+ minute pentru modele mari (65GB BF-16)
  4. Model Support: Întârziere față de Ollama/VLM mainstream
  5. Coil Whine: AMD RX 7900 XT cel mai zgomotos

💡 Quote-uri Importante

"Is cheap VRAM actually useful or just cheap?"

"NVIDIA RTX 6000 Pro was $10,000, now it's down to $8,500. But this [4x Intel B60] might be the most affordable 96GB of VRAM you can buy in a single system right now."

"Intel's pitch here is pretty clear: $650 for 24GB. NVIDIA's 4090 has 24GB and cost me over $2,000."

"You don't get the latest and greatest models because you have to use their [Intel] stack which is Intel LLM Scaler. The cadence is probably about a month or so behind."

"We're using 933 watts of power now... These are pretty toasty over here. This is very hot. It will burn me if I leave my finger on there."

"This is an example of real usage [VS Code agent with DeepSeek]. We're at about 800W for the machine. It's not bad."


Aplicații Practice / Acțiuni

Pentru Marius (ROA Context)

  • NU recomand Intel B60 pentru ROA development - Motivație:

    • Stack Intel LLM Scaler rămâne în urmă cu modelele noi (Qwen 3.5 missing)
    • Instabilitate la concurrency mare (crashes)
    • Heat + noise extreme (nu potrivit pentru office/home)
    • Load times 7+ minute pentru modele mari
    • Marius nu are nevoie de 96GB VRAM pentru taskuri curente
  • ⚠️ Alternativă mid-range: AMD RX 7900 XT (20GB, $800)

    • Bandwidth mai mare (800 GB/s vs 456)
    • Single card mai stabil decât 4x setup
    • Suport mainstream VLM/Ollama (fără Intel stack)
    • Trade-off: 20GB vs 24GB, dar suficient pentru majoritatea modelelor
  • Option ieftină: NVIDIA RTX Pro 2000 ($800, 16GB GDDR7)

    • 70W power (no extra cables)
    • Small form factor (potrivit desktop)
    • Suport NVIDIA mainstream
    • Limită: 16GB VRAM (modele mai mici, mai puțin context)

General Insights

  • VRAM density vs Performance: Mai mult VRAM ≠ mai rapid

    • AMD RX 7900 XT (20GB, 800 GB/s bandwidth) → fastest single-GPU throughput
    • Intel B60 (24GB, 456 GB/s) → mai mult context, dar mai lent
  • Agentic Workloads: 64 concurrency sweet spot pentru Intel 4x B60

    • Sub 64: subutilizat
    • Peste 64: crashes sau diminishing returns
  • BF-16 Models Matter: Testele cu full BF-16 (65GB disk) arată limitele reale

    • Qwen 32B distilled: 574 t/s peak (stabil)
    • Qwen Coder 30B: crashes la concurrency 32 (instabil)
  • Office Multi-User Scenario: Intel 4x B60 ar putea funcționa DACĂ:

    • Users accept 7 min model load times
    • Zgomotul nu e problemă
    • Modelele folosite sunt suportate de Intel stack
    • Concurrency rămâne sub limita de crash

📊 Verdict Final

Intel ARC Pro B60 (4x96GB):

  • PRO: Cel mai ieftin VRAM density ($650-800/24GB)
  • PRO: Funcționează pentru agentic workflows (64 concurrency sweet spot)
  • CON: Stack Intel rămâne în urmă ~1 lună cu modelele noi
  • CON: Instabilitate la concurrency mare
  • CON: Heat + noise extreme (burn risk, airplane noise)
  • CON: Load times foarte lungi (7+ min pentru modele mari)

Use Case Ideal:

  • Office cu mulți useri conectați simultan
  • Agentic workflows cu concurrency 32-64
  • Modele mari BF-16 cu context extensiv
  • Users tolerează zgomot + întârzieri load

NU pentru:

  • Home/desktop development (prea zgomotos/fierbinte)
  • Latest models (Qwen 3.5, GLM Flash 4.7 missing)
  • Production crítico (instabilitate crashes)

Context suplimentar:

  • Video menționează "B50 video is right over here" → Intel pregătește flagship card
  • Sponsor: Incogni (data broker removal service) - $60 off annual cu cod "alexiskin"