Files
ROMFASTSQL/proxmox/vm201-windows/docs/vm201-troubleshooting-pana-curent-2026-01-11.md
Marius 4d51d5b2d2 Reorganize proxmox documentation into subdirectories per LXC/VM
- Create cluster/ for Proxmox cluster infrastructure (SSH guide, HA monitor, UPS)
- Create lxc108-oracle/ for Oracle Database documentation and scripts
- Create vm201-windows/ for Windows 11 VM docs and SSL certificate scripts
- Add SSL certificate monitoring scripts (check-ssl-certificates.ps1, monitor-ssl-certificates.sh)
- Remove archived VM107 references (decommissioned)
- Update all cross-references between files
- Update main README.md with new structure and navigation

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-01-27 17:02:49 +02:00

5.3 KiB

VM 201 - Troubleshooting Pană de Curent (2026-01-11)

Rezumat Incident

Data: 2026-01-11 Problemă: VM 201 nu pornea după o pană de curent Cauză root: HA blocat în starea "migrate" din cauza dependențelor de storage indisponibil Rezoluție: Migrare manuală, eliminare HA, configurare replicare


Cronologie Incident

1. Stare Inițială

  • VM 201 era configurat pe pveelite (migrat anterior de HA)
  • Replicare configurată: pveelite → pve1, pvemini
  • HA activ în ha-group-main (prioritate: pvemini:100 > pveelite:50)

2. Ce s-a întâmplat la pana de curent

  1. pvemini a căzut
  2. HA a încercat să migreze VM 201 pe pveelite
  3. Migrarea a eșuat din cauza ISO atașat de pe storage backup
  4. Când pvemini a revenit, HA a încercat să migreze înapoi
  5. HA a rămas blocat în starea "migrate", reîncercând la fiecare 10 secunde

3. Erori întâlnite

storage 'backup' is not available on node 'pveelite'
migration aborted

Probleme Identificate

Problemă Impact Rezolvare
ISO atașat de pe storage local (backup:iso/virtio-win-latest.iso) Blochează migrarea automată Detașat ISO: qm set 201 --ide1 none
Snapshot-uri cu referințe la storage backup Blochează migrarea Șterse snapshot-uri
Replicare configurată invers Discuri pe nod greșit Recreat job-uri replicare
Clone ZFS (base-300) legat de discuri VM 201 Blochează ștergerea Promovat clone: zfs promote
HA cu failback automat Încerca să mute înapoi VM-ul Eliminat din HA

Pași de Rezolvare

Pas 1: Diagnostic

# Verificare unde e VM-ul
find /etc/pve/nodes -name '201.conf'

# Verificare stare HA
ha-manager status | grep 201

# Verificare erori
ssh root@10.0.20.202 "journalctl -u pve-ha-lrm -n 50"

Pas 2: Dezactivare HA temporar

ha-manager set vm:201 --state disabled
# Sau eliminare completă:
ha-manager remove vm:201

Pas 3: Detașare ISO

qm set 201 --ide1 none

Pas 4: Ștergere snapshot-uri cu referințe problematice

qm delsnapshot 201 Windows11VisualSVNROAUpdate
qm delsnapshot 201 Windows11Debloated
qm delsnapshot 201 Windows11ProaspatInstalat

Pas 5: Ștergere job-uri replicare corupte

pvesr delete 201-0 --force
pvesr delete 201-1 --force

Pas 6: Migrare manuală

qm migrate 201 pvemini

Pas 7: Recreare job-uri replicare

pvesr create-local-job 201-0 pve1 --schedule '*/30' --comment 'central W11'
pvesr create-local-job 201-1 pveelite --schedule '*/30' --comment 'central W11'

Pas 8: Curățare discuri vechi nefolosite

# Promovare clone (dacă există)
zfs promote rpool/data/base-300-disk-0
zfs promote rpool/data/base-300-disk-1

# Ștergere discuri vechi
zfs destroy -r rpool/data/vm-201-disk-0
zfs destroy -r rpool/data/vm-201-disk-2

Configurație Finală

VM 201

  • Nod: pvemini (10.0.20.201)
  • IP: 10.0.20.122
  • Discuri: vm-201-disk-1 (EFI), vm-201-disk-3 (500GB)

HA

  • Status: ELIMINAT (control manual)
  • Motiv: Evitare blocaje la migrare automată

Replicare

  • 201-0: pvemini → pve1 (*/30)
  • 201-1: pvemini → pveelite (*/30)

Lecții Învățate

1. NU atașa ISO-uri de pe storage local

Storage-ul backup este local pe pvemini și nu e disponibil pe alte noduri. Asta blochează migrarea.

Soluție: Detașează ISO-urile când nu sunt necesare:

qm set 201 --ide1 none --ide2 none

2. NU crea snapshot-uri cu ISO atașat

Snapshot-urile salvează referințele la storage, care blochează migrarea ulterioară.

3. Replicarea și HA sunt independente

  • Replicare (pvesr): Copiază discurile ZFS între noduri
  • HA: Gestionează pornirea/migrarea automată

Poți avea replicare fără HA.

4. /etc/pve este partajat în cluster

Chiar dacă un nod e offline, fișierele de configurare sunt accesibile de pe alte noduri prin pmxcfs.

5. Clone-urile ZFS blochează ștergerea

Dacă ai creat un VM template dintr-un snapshot, clone-ul trebuie promovat înainte de a șterge volumul părinte:

zfs promote rpool/data/base-XXX-disk-Y

Procedură Failover Manual (Viitor)

Când pvemini cade:

# De pe pveelite sau pve1:
mv /etc/pve/nodes/pvemini/qemu-server/201.conf /etc/pve/nodes/pveelite/qemu-server/201.conf
qm start 201

Când pvemini revine (failback):

qm migrate 201 pvemini --online

Comenzi Utile

# Status replicare
pvesr status | grep 201

# Forțare replicare imediată
pvesr schedule-now 201-0 && pvesr schedule-now 201-1

# Verificare discuri pe noduri
ssh root@10.0.20.201 "zfs list | grep vm-201"
ssh root@10.0.20.202 "zfs list | grep vm-201"
ssh root@10.0.20.200 "zfs list | grep vm-201"

# Verificare configurare VM
qm config 201 | grep -E 'disk|efidisk|virtio|ide'

Referințe


Data rezolvare: 2026-01-11 Durată incident: ~2 ore Autor: Marius Mutu