- Create cluster/ for Proxmox cluster infrastructure (SSH guide, HA monitor, UPS) - Create lxc108-oracle/ for Oracle Database documentation and scripts - Create vm201-windows/ for Windows 11 VM docs and SSL certificate scripts - Add SSL certificate monitoring scripts (check-ssl-certificates.ps1, monitor-ssl-certificates.sh) - Remove archived VM107 references (decommissioned) - Update all cross-references between files - Update main README.md with new structure and navigation Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
5.3 KiB
VM 201 - Troubleshooting Pană de Curent (2026-01-11)
Rezumat Incident
Data: 2026-01-11 Problemă: VM 201 nu pornea după o pană de curent Cauză root: HA blocat în starea "migrate" din cauza dependențelor de storage indisponibil Rezoluție: Migrare manuală, eliminare HA, configurare replicare
Cronologie Incident
1. Stare Inițială
- VM 201 era configurat pe pveelite (migrat anterior de HA)
- Replicare configurată: pveelite → pve1, pvemini
- HA activ în
ha-group-main(prioritate: pvemini:100 > pveelite:50)
2. Ce s-a întâmplat la pana de curent
- pvemini a căzut
- HA a încercat să migreze VM 201 pe pveelite
- Migrarea a eșuat din cauza ISO atașat de pe storage
backup - Când pvemini a revenit, HA a încercat să migreze înapoi
- HA a rămas blocat în starea "migrate", reîncercând la fiecare 10 secunde
3. Erori întâlnite
storage 'backup' is not available on node 'pveelite'
migration aborted
Probleme Identificate
| Problemă | Impact | Rezolvare |
|---|---|---|
ISO atașat de pe storage local (backup:iso/virtio-win-latest.iso) |
Blochează migrarea automată | Detașat ISO: qm set 201 --ide1 none |
Snapshot-uri cu referințe la storage backup |
Blochează migrarea | Șterse snapshot-uri |
| Replicare configurată invers | Discuri pe nod greșit | Recreat job-uri replicare |
| Clone ZFS (base-300) legat de discuri VM 201 | Blochează ștergerea | Promovat clone: zfs promote |
| HA cu failback automat | Încerca să mute înapoi VM-ul | Eliminat din HA |
Pași de Rezolvare
Pas 1: Diagnostic
# Verificare unde e VM-ul
find /etc/pve/nodes -name '201.conf'
# Verificare stare HA
ha-manager status | grep 201
# Verificare erori
ssh root@10.0.20.202 "journalctl -u pve-ha-lrm -n 50"
Pas 2: Dezactivare HA temporar
ha-manager set vm:201 --state disabled
# Sau eliminare completă:
ha-manager remove vm:201
Pas 3: Detașare ISO
qm set 201 --ide1 none
Pas 4: Ștergere snapshot-uri cu referințe problematice
qm delsnapshot 201 Windows11VisualSVNROAUpdate
qm delsnapshot 201 Windows11Debloated
qm delsnapshot 201 Windows11ProaspatInstalat
Pas 5: Ștergere job-uri replicare corupte
pvesr delete 201-0 --force
pvesr delete 201-1 --force
Pas 6: Migrare manuală
qm migrate 201 pvemini
Pas 7: Recreare job-uri replicare
pvesr create-local-job 201-0 pve1 --schedule '*/30' --comment 'central W11'
pvesr create-local-job 201-1 pveelite --schedule '*/30' --comment 'central W11'
Pas 8: Curățare discuri vechi nefolosite
# Promovare clone (dacă există)
zfs promote rpool/data/base-300-disk-0
zfs promote rpool/data/base-300-disk-1
# Ștergere discuri vechi
zfs destroy -r rpool/data/vm-201-disk-0
zfs destroy -r rpool/data/vm-201-disk-2
Configurație Finală
VM 201
- Nod: pvemini (10.0.20.201)
- IP: 10.0.20.122
- Discuri: vm-201-disk-1 (EFI), vm-201-disk-3 (500GB)
HA
- Status: ELIMINAT (control manual)
- Motiv: Evitare blocaje la migrare automată
Replicare
- 201-0: pvemini → pve1 (*/30)
- 201-1: pvemini → pveelite (*/30)
Lecții Învățate
1. NU atașa ISO-uri de pe storage local
Storage-ul backup este local pe pvemini și nu e disponibil pe alte noduri. Asta blochează migrarea.
Soluție: Detașează ISO-urile când nu sunt necesare:
qm set 201 --ide1 none --ide2 none
2. NU crea snapshot-uri cu ISO atașat
Snapshot-urile salvează referințele la storage, care blochează migrarea ulterioară.
3. Replicarea și HA sunt independente
- Replicare (pvesr): Copiază discurile ZFS între noduri
- HA: Gestionează pornirea/migrarea automată
Poți avea replicare fără HA.
4. /etc/pve este partajat în cluster
Chiar dacă un nod e offline, fișierele de configurare sunt accesibile de pe alte noduri prin pmxcfs.
5. Clone-urile ZFS blochează ștergerea
Dacă ai creat un VM template dintr-un snapshot, clone-ul trebuie promovat înainte de a șterge volumul părinte:
zfs promote rpool/data/base-XXX-disk-Y
Procedură Failover Manual (Viitor)
Când pvemini cade:
# De pe pveelite sau pve1:
mv /etc/pve/nodes/pvemini/qemu-server/201.conf /etc/pve/nodes/pveelite/qemu-server/201.conf
qm start 201
Când pvemini revine (failback):
qm migrate 201 pvemini --online
Comenzi Utile
# Status replicare
pvesr status | grep 201
# Forțare replicare imediată
pvesr schedule-now 201-0 && pvesr schedule-now 201-1
# Verificare discuri pe noduri
ssh root@10.0.20.201 "zfs list | grep vm-201"
ssh root@10.0.20.202 "zfs list | grep vm-201"
ssh root@10.0.20.200 "zfs list | grep vm-201"
# Verificare configurare VM
qm config 201 | grep -E 'disk|efidisk|virtio|ide'
Referințe
- Documentație VM 201:
vm201-windows11.md - Proxmox Replication: https://pve.proxmox.com/wiki/Storage_Replication
- Proxmox HA: https://pve.proxmox.com/wiki/High_Availability
Data rezolvare: 2026-01-11 Durată incident: ~2 ore Autor: Marius Mutu