Files

Marius d5bfc6b5c7 Add Oracle DR standby server scripts and Proxmox troubleshooting docs

- Add comprehensive Oracle backup and DR strategy documentation
- Add RMAN backup scripts (full and incremental)
- Add PowerShell transfer scripts for DR site
- Add bash restore and verification scripts
- Reorganize Oracle documentation structure
- Add Proxmox troubleshooting guide for VM 201 HA errors and NFS storage issues

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude <noreply@anthropic.com>

2025-10-08 13:37:33 +03:00

11 KiB

Raw Blame History

Troubleshooting: VM 201 Locked & Backup-NFS Unknown

Data: 2025-10-08 Noduri afectate: pvemini (10.0.20.201) Resurse afectate: VM 201 (roacentral), Storage backup-nfs

Problema 1: VM 201 - Status Running dar HA Error

Simptome

VM 201 (Windows 11) înghețat
GUI Proxmox arăta: running dar cu HA error
Încercări de reboot/stop din GUI au eșuat
VM nu răspundea la comenzi

Diagnostic

1. Verificare status VM

ssh root@10.0.20.201 "qm status 201"
# Output: status: running

2. Verificare status HA

ssh root@10.0.20.201 "ha-manager status"
# Output: service vm:201 (pvemini, error)

3. Verificare configurație VM

ssh root@10.0.20.201 "qm config 201"
# Output: lock: backup

Cauză identificată: Lock de backup rămas activ în configurație, probabil de la un job de backup întrerupt.

4. Verificare log-uri HA

ssh root@10.0.20.201 "journalctl -u pve-ha-lrm --since '5 minutes ago' --no-pager | grep -i '201\|error'"

Output relevant:

Oct 08 11:18:46 pvemini pve-ha-lrm: can't lock file '/var/lock/qemu-server/lock-201.conf' - got timeout
Oct 08 11:18:46 pvemini pve-ha-lrm: unable to stop service vm:201 (still running)
Oct 08 11:18:56 pvemini pve-ha-lrm: service vm:201 is in an error state and needs manual intervention

5. Verificare proces KVM

ssh root@10.0.20.201 "ps aux | grep 'qm\|kvm' | grep 201"

Rezultat: Procesul KVM (PID 3628) rula de 2 zile dar era înghețat.

Rezolvare VM 201

Pas 1: Unlock VM

ssh root@10.0.20.201 "qm unlock 201"
# Success - lock-ul a fost eliminat

Pas 2: Încercare stop normal (a eșuat)

ssh root@10.0.20.201 "qm stop 201"
# Error: service 'vm:201' in error state, must be disabled and fixed first

Pas 3: Remove VM din HA management

ssh root@10.0.20.201 "ha-manager remove vm:201"
# Success - VM eliminat din HA

Pas 4: Force stop VM

ssh root@10.0.20.201 "qm stop 201"
# Output: VM quit/powerdown failed - terminating now with SIGTERM
#         VM still running - terminating now with SIGKILL

Pas 5: Verificare stop

ssh root@10.0.20.201 "qm status 201"
# Output: status: stopped

Pas 6: Start VM

ssh root@10.0.20.201 "qm start 201"
ssh root@10.0.20.201 "sleep 5 && qm status 201"
# Output: status: running

Pas 7: Re-add în HA

ssh root@10.0.20.201 "ha-manager add vm:201"
ssh root@10.0.20.201 "sleep 10 && ha-manager status | grep 201"
# Output: service vm:201 (pvemini, started)

Rezultat: ✅ VM 201 funcțional și re-integrat în HA

Problema 2: Storage backup-nfs - Status Unknown

Simptome

Storage backup-nfs apărea ca unknown în GUI
Toate comenzile care accesau /mnt/pve/backup-nfs înghețau
Timeout-uri la operații SSH pe pvemini
NFS mount exista dar era blocat

Diagnostic

1. Verificare status storage

ssh root@10.0.20.201 "pvesm status | grep backup"

Output:

backup             dir     active      1921724696       287855936      1536176700   14.98%
backup-nfs         nfs   inactive               0               0               0    0.00%
backup-ssd         dir   disabled               0               0               0      N/A
got timeout
unable to activate storage 'backup-nfs' - directory '/mnt/pve/backup-nfs' does not exist or is unreachable

2. Verificare configurație storage

ssh root@10.0.20.201 "cat /etc/pve/storage.cfg | grep -A5 backup-nfs"

Output:

nfs: backup-nfs
	export /mnt/backup
	path /mnt/pve/backup-nfs
	server 10.0.20.201
	content rootdir,snippets,images,iso,import,vztmpl,backup

3. Verificare mount point (TIMEOUT)

ssh root@10.0.20.201 "ls -ld /mnt/pve/backup-nfs"
# Timeout după 2 minute - NFS blocat complet

4. Verificare dacă este montat

ssh root@10.0.20.201 "mount | grep backup-nfs"

Output:

10.0.20.201:/mnt/backup on /mnt/pve/backup-nfs type nfs4 (rw,relatime,vers=4.2,rsize=1048576,wsize=1048576,namlen=255,hard,proto=tcp,timeo=600,retrans=2,sec=sys,clientaddr=10.0.20.201,local_lock=none,addr=10.0.20.201)

Cauză identificată: NFS server blocat pe pvemini - mount exista dar era complet non-responsive.

5. Verificare status servicii NFS

ssh root@10.0.20.201 "systemctl status nfs-server"
# Active: active (exited) - dar non-functional

6. Încercări de remediere (toate au eșuat cu timeout)

# Încercare unmount forțat
ssh root@10.0.20.201 "umount -f /mnt/pve/backup-nfs"
# device is busy

# Încercare restart servicii NFS
ssh root@10.0.20.201 "systemctl restart nfs-server"
# Timeout după 30s

# Încercare kill procese NFS
ssh root@10.0.20.201 "pkill -9 nfs"
# Timeout după 15s

Rezolvare Backup-NFS

Pas 1: Dezactivare storage din alt nod

ssh root@10.0.20.200 "pvesm set backup-nfs --disable 1"
ssh root@10.0.20.200 "pvesm status | grep backup"

Output:

backup             dir   disabled
backup-nfs         nfs   disabled
backup-ssd         dir     active

Pas 2: Force reboot pvemini

# Încercare reboot normal (blocat)
ssh root@10.0.20.201 "reboot" &
# Nu a funcționat

# Force reboot via sysrq
ssh root@10.0.20.201 "echo 1 > /proc/sys/kernel/sysrq && echo b > /proc/sysrq-trigger" &
# Output: "System is going down" - SUCCESS

Pas 3: Monitorizare reboot

for i in {1..60}; do
  sleep 2
  ping -c 1 -W 1 10.0.20.201 >/dev/null 2>&1 && echo "pvemini is back online!" && break || echo "Waiting... ($i/60)"
done
# Output: pvemini is back online! (după ~6 secunde)

Pas 4: Verificare după reboot

# Așteptare servicii Proxmox
sleep 15

# Verificare status storage
ssh root@10.0.20.201 "pvesm status | grep backup-nfs"
# Output: backup-nfs         nfs   disabled

Pas 5: Re-activare storage

ssh root@10.0.20.201 "pvesm set backup-nfs --disable 0"
ssh root@10.0.20.201 "pvesm status | grep backup"

Output:

backup             dir     active      1921724696       287855936      1536176700   14.98%
backup-nfs         nfs   inactive               0               0               0    0.00%

Pas 6: Verificare mount

ssh root@10.0.20.201 "mount | grep backup-nfs"

Output:

10.0.20.201:/mnt/backup on /mnt/pve/backup-nfs type nfs4 (rw,relatime,vers=4.2,rsize=1048576,wsize=1048576)

Pas 7: Verificare accesibilitate

ssh root@10.0.20.201 "df -h /mnt/pve/backup-nfs"

Output:

Filesystem               Size  Used Avail Use% Mounted on
10.0.20.201:/mnt/backup  1.8T  275G  1.5T  16% /mnt/pve/backup-nfs

Pas 8: Restart pvestatd pentru refresh

ssh root@10.0.20.201 "systemctl restart pvestatd"
ssh root@10.0.20.201 "sleep 5 && pvesm status | grep backup-nfs"

Output final:

backup-nfs         nfs     active      1921725440       287856640      1536177152   14.98%

Rezultat: ✅ Storage backup-nfs funcțional și active

Observații Suplimentare

VM/LXC nu au pornit automat după reboot

Deși toate containerele și VM-urile cu onboot: 1 nu au pornit imediat după reboot-ul forțat, acestea s-au recuperat automat după ce:

Cluster quorum s-a re-stabilit (3/3 noduri)
HA manager și-a recuperat starea
Storage-urile au devenit disponibile

HA a fost conservativ după reboot-ul forțat, așteptând confirmarea stabilității cluster-ului înainte de a porni serviciile.

Lecții Învățate

Despre Lock-uri VM

Lock-urile de backup pot rămâne active dacă job-urile de backup sunt întrerupte brusc
qm unlock <VMID> rezolvă lock-uri simple
Pentru VM-uri în HA error state, este necesar să fie remove din HA înainte de intervenții

Despre NFS pe Proxmox

Evită self-mount NFS - pvemini montează NFS de pe el însuși (10.0.20.201:/mnt/backup → 10.0.20.201:/mnt/pve/backup-nfs)
Această configurație poate cauza deadlock-uri când NFS server-ul sau client-ul au probleme
Recomandare: Mută NFS server-ul pe un nod dedicat sau NAS separate

Comenzi Utile pentru Diagnostic

Verificare HA status

ha-manager status              # Overview complet HA
ha-manager config              # Configurație HA resources
cat /etc/pve/ha/resources.cfg # Fișier configurație HA
journalctl -u pve-ha-lrm -f    # Log-uri HA Local Resource Manager

Verificare Lock-uri VM

qm config <VMID> | grep lock      # Verifică lock în config
ls -lh /var/lock/qemu-server/     # Lock files pe disk
qm unlock <VMID>                  # Remove lock
qm stop <VMID> --skiplock         # Stop forțat ignorând lock

Verificare NFS

showmount -e <IP>                    # Export-uri disponibile
pvesm nfsscan <IP>                   # Scan NFS via Proxmox
mount | grep nfs                     # Mount-uri NFS active
df -h <mount_point>                  # Test accesibilitate mount
systemctl status nfs-server          # Status NFS server
systemctl status nfs-client.target   # Status NFS client

Force Reboot când SSH-ul este blocat

# Via sysrq (cel mai safe force reboot)
ssh root@<IP> "echo 1 > /proc/sys/kernel/sysrq && echo b > /proc/sysrq-trigger" &

# Via IPMI/iLO (dacă disponibil)
ipmitool -I lanplus -H <IPMI_IP> -U <user> -P <pass> power reset

Preventie

Pentru VM Lock Issues

Monitorizează job-urile de backup - verifică că se termină corect
Test backup recovery - periodic test restore pentru validare
Configurează timeout-uri adecvate pentru backup-uri mari
Enable HA doar pentru VM-uri critice - nu toate VM-urile necesită HA

Pentru Storage NFS

Separă NFS server de client - nu monta NFS de pe același host
Monitorizează NFS timeouts în log-uri
Configurează soft mount în loc de hard mount pentru non-critical storage
Test periodic accesibilitatea storage-urilor NFS

Monitorizare Preventivă

# Script verificare lock-uri VM
for vm in $(qm list | awk 'NR>1 {print $1}'); do
  if qm config $vm | grep -q "^lock:"; then
    echo "WARNING: VM $vm has lock: $(qm config $vm | grep '^lock:')"
  fi
done

# Script verificare NFS health
for nfs in $(pvesm status | grep nfs | awk '{print $1}'); do
  if ! pvesm list $nfs &>/dev/null; then
    echo "ERROR: Storage $nfs not accessible"
  fi
done

Rezumat Comenzi Executate

Rezolvare VM 201

ssh root@10.0.20.201 "qm unlock 201"
ssh root@10.0.20.201 "ha-manager remove vm:201"
ssh root@10.0.20.201 "qm stop 201"
ssh root@10.0.20.201 "qm start 201"
ssh root@10.0.20.201 "ha-manager add vm:201"

Rezolvare backup-nfs

ssh root@10.0.20.200 "pvesm set backup-nfs --disable 1"
ssh root@10.0.20.201 "echo 1 > /proc/sys/kernel/sysrq && echo b > /proc/sysrq-trigger" &
# Așteptare reboot
ssh root@10.0.20.201 "pvesm set backup-nfs --disable 0"
ssh root@10.0.20.201 "systemctl restart pvestatd"

Timp total rezolvare: ~15 minute (incluzând reboot-ul)

11 KiB Raw Blame History

Troubleshooting: VM 201 Locked & Backup-NFS Unknown

Problema 1: VM 201 - Status Running dar HA Error

Simptome

Diagnostic

1. Verificare status VM

2. Verificare status HA

3. Verificare configurație VM

4. Verificare log-uri HA

5. Verificare proces KVM

Rezolvare VM 201

Pas 1: Unlock VM

Pas 2: Încercare stop normal (a eșuat)

Pas 3: Remove VM din HA management

Pas 4: Force stop VM

Pas 5: Verificare stop

Pas 6: Start VM

Pas 7: Re-add în HA

Problema 2: Storage backup-nfs - Status Unknown

Simptome

Diagnostic

1. Verificare status storage

2. Verificare configurație storage

3. Verificare mount point (TIMEOUT)

4. Verificare dacă este montat

5. Verificare status servicii NFS

6. Încercări de remediere (toate au eșuat cu timeout)

Rezolvare Backup-NFS

Pas 1: Dezactivare storage din alt nod

Pas 2: Force reboot pvemini

Pas 3: Monitorizare reboot

Pas 4: Verificare după reboot

Pas 5: Re-activare storage

Pas 6: Verificare mount

Pas 7: Verificare accesibilitate

Pas 8: Restart pvestatd pentru refresh

Observații Suplimentare

VM/LXC nu au pornit automat după reboot

Lecții Învățate

Despre Lock-uri VM

Despre NFS pe Proxmox

Comenzi Utile pentru Diagnostic

Verificare HA status

Verificare Lock-uri VM

Verificare NFS

Force Reboot când SSH-ul este blocat

Preventie

Pentru VM Lock Issues

Pentru Storage NFS

Monitorizare Preventivă

Rezumat Comenzi Executate

Rezolvare VM 201

Rezolvare backup-nfs

11 KiB

Raw Blame History