Update Proxmox HA monitoring script - remove qdevice support

Changes:
- Remove qdevice verification (qdevice no longer exists in cluster)
- Fix cluster nodes detection (updated pvecm status output format)
- Add --help parameter with complete usage documentation
- Update notification templates (remove qdevice references)
- Simplify quorum check (only verify total_votes = expected_votes)

The script now correctly monitors:
- HA Services (pve-ha-lrm, pve-ha-crm)
- Cluster Quorum (3/3 votes)
- Online nodes (3 nodes detected via Membership information)

Tested successfully on pvemini.romfast.ro (10.0.20.201)
Status: SUCCESSFUL with all checks passing

Also updated proxmox-ssh-guide.md with current cluster configuration.

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude <noreply@anthropic.com>
This commit is contained in:
Marius
2025-10-06 18:48:05 +03:00
parent 8795b92887
commit f3fca1f96e
3 changed files with 213 additions and 341 deletions

View File

@@ -1,10 +1,22 @@
# Ghid Conexiune SSH la Nod Proxmox
# Ghid Conexiune SSH la Cluster Proxmox
## Informații Generale
- **IP Nod Proxmox:** 10.0.20.201
- **Hostname:** pvemini
- **Versiune:** pve-manager/8.4.12/c2ea8261d32a5020 (kernel: 6.8.12-14-pve)
- **Utilizator:** root
## Informații Generale Cluster
- **Nume Cluster:** romfast
- **Număr Noduri:** 3
- **Status Quorum:** Activ (3/3 noduri)
- **Transport:** knet
- **Secure Auth:** on
### Noduri Cluster
| Nod | IP | Status | Node ID |
|-----|-----|--------|---------|
| **pvemini (local)** | 10.0.20.201 | Online | 0x00000002 |
| pve1 | 10.0.20.200 | Online | 0x00000001 |
| pve2 | 10.0.20.202 | Online | 0x00000003 |
### Versiune Proxmox
- **Versiune:** pve-manager/8.4.14/b502d23c55afcba1 (kernel: 6.8.12-15-pve)
- **Utilizator SSH:** root
## Configurare Inițială SSH
@@ -35,13 +47,13 @@ ssh root@10.0.20.201
## Storage Configuration
### Storage-uri Disponibile
| Storage | Tip | Conținut | Capacitate | Utilizare |
|---------|-----|----------|------------|-----------|
| `backup` | dir | backup,snippets,rootdir,images,import,iso,vztmpl | 1.79 TiB | 174.99 GiB (9.55%) |
| `backup-ssd` | dir | images,snippets,rootdir,backup,vztmpl,iso | 0.00 B | Dezactivat |
| `local` | dir | iso,backup,vztmpl | 1.54 TiB | 128.00 KiB |
| `local-zfs` | zfspool | rootdir,images | 1.54 TiB | 217.65 GiB (12.12%) |
| `backup-nfs` | nfs | backup,snippets,images,iso,vztmpl | 1.53 TiB | 174.99 GiB (9.55%) |
| Storage | Tip | Status | Capacitate | Utilizat | Disponibil | Utilizare |
|---------|-----|--------|------------|----------|------------|-----------|
| `backup` | dir | active | 1.79 TiB | 258.52 GiB | 1.44 TiB | 14.45% |
| `backup-nfs` | nfs | active | 1.79 TiB | 258.52 GiB | 1.44 TiB | 14.45% |
| `backup-ssd` | dir | disabled | - | - | - | - |
| `local` | dir | active | 1.51 TiB | 128 KB | 1.51 TiB | 0.00% |
| `local-zfs` | zfspool | active | 1.75 TiB | 245.75 GiB | 1.51 TiB | 14.03% |
### Căi Storage
- **Backup local:** `/var/lib/vz/dump/`
@@ -158,13 +170,31 @@ pct set <CTID> --rootfs local-zfs:20
### Configurația Bridge
- **Bridge:** vmbr0
- **Interfață Fizică:** enp87s0
- **IP Bridge:** 10.0.20.201/24
- **Gateway:** 10.0.20.1
- **Subnet:** 10.0.20.0/24
- **Gateway:** 10.0.20.1 (presumptiv)
### IP-uri Utilizate
- **Proxmox Node:** 10.0.20.201
- **VM 107:** 10.0.20.107 (Windows 7)
- **VM 201:** 10.0.20.124 (Windows 11 - planificat)
### VM-uri și Containere Active
#### LXC Containers
| VMID | Nume | CPU | RAM | Storage | Status | Tags |
|------|------|-----|-----|---------|--------|------|
| 100 | portainer | 2 cores | 1 GB | 21 GB | running | docker;portainer |
| 101 | minecraft | 4 cores | 8 GB | 100 GB | running | community-script;minecraft;os |
| 102 | coolify | 4 cores | 6 GB | 50 GB | running | debian |
| 103 | proxmox-backup-server | 2 cores | 2 GB | 10 GB | running | backup;community-script |
| 104 | flowise | 4 cores | 2 GB | 100 GB | running | flowise;ollama |
| 105 | test | 2 cores | 2 GB | 40 GB | running | debian |
| 106 | gitea | 2 cores | 4 GB | 250 GB | running | alpine;community-script;docker;gitea |
| 108 | central-oracle | 2 cores | 4 GB | 50 GB | running | docker;oracle |
#### Virtual Machines (QEMU)
| VMID | Nume | CPU | RAM | Storage | Status | Descriere |
|------|------|-----|-----|---------|--------|-----------|
| 107 | roacentral | 2 cores | 4 GB | 932 GB | stopped | Windows 7 (oprit) |
| 201 | roacentral | 2 cores | 4 GB | 500 GB | running | Windows 11 (activ) |
| 300 | Win11-Template | 2 cores | 4 GB | 500 GB | stopped | Windows 11 Template |
## Backup Job Configuration
@@ -173,21 +203,57 @@ pct set <CTID> --rootfs local-zfs:20
- **Compression:** zstd
- **Mode:** snapshot
- **Storage:** backup
- **VM-uri incluse:** 100,101,102,104,106,107
- **VM-uri incluse:** 100, 101, 102, 104, 106, 108, 201
- **Retention:** 1 daily, 1 weekly
- **Fleecing:** Disabled
- **Notes Template:** {{guestname}}
### Comenzi Cluster
```bash
# Verificare status cluster
pvecm status
# Listare noduri
pvecm nodes
# Listare toate resurse cluster
pvesh get /cluster/resources
# Verificare configurație cluster
cat /etc/pve/corosync.conf
```
## Troubleshooting
### Probleme Comune SSH
```bash
# Regenerare host keys dacă e nevoie
# Regenerare host keys pentru toate nodurile
ssh-keygen -R 10.0.20.200
ssh-keygen -R 10.0.20.201
ssh-keygen -R 10.0.20.202
# Conectare cu debug
ssh -v root@10.0.20.201
# Test conectivitate
ping 10.0.20.201
# Test conectivitate toate nodurile
ping -c 3 10.0.20.200
ping -c 3 10.0.20.201
ping -c 3 10.0.20.202
```
### Probleme Cluster
```bash
# Verificare quorum
pvecm status
# Restart servicii cluster
systemctl restart pve-cluster
systemctl restart corosync
# Verificare log-uri cluster
journalctl -u corosync -f
journalctl -u pve-cluster -f
```
### Probleme VM Windows 11
@@ -213,13 +279,34 @@ systemctl restart pveproxy
```
## Web Interface
- **URL:** https://10.0.20.201:8006
### Accesare Web GUI
- **Nod pvemini:** https://10.0.20.201:8006
- **Nod pve1:** https://10.0.20.200:8006
- **Nod pve2:** https://10.0.20.202:8006
- **Utilizator:** root
- **Port:** 8006 (HTTPS)
## Note Importante
1. **Întotdeauna fă backup** înainte de modificări majore
2. **Folosește storage local-zfs** pentru performanță optimă
3. **Pentru Windows 11** folosește placa de rețea e1000 în loc de VirtIO pentru compatibilitate
4. **CPU type 'host'** oferă performanțe maxime cu KVM=1
5. **Testează conexiunea SSH** înainte de automatizări
### Cluster și High Availability
1. **Clusterul are 3 noduri** - Quorum necesită 2/3 noduri online
2. **Întotdeauna fă backup** înainte de modificări majore
3. **Storage sincronizat** - backup și backup-nfs sunt disponibile pe toate nodurile
### Performance și Configurații
4. **Folosește storage local-zfs** pentru performanță optimă VM-uri/containere
5. **Pentru Windows 11** folosește placa de rețea e1000 în loc de VirtIO pentru compatibilitate
6. **CPU type 'host'** oferă performanțe maxime cu KVM=1
7. **VM 201 (Windows 11 activ)** rulează pe local-zfs pentru performanță
8. **VM 107 (Windows 7)** este oprit - considerat legacy
### Backup și Siguranță
9. **Backup zilnic la 02:00** pentru toate containerele active și VM-ul 201
10. **Retention policy:** 1 daily + 1 weekly
11. **Compression zstd** pentru backup-uri eficiente
12. **Testează conexiunea SSH** pe toate nodurile înainte de automatizări
### Containere Active
13. **8 containere LXC** cu diverse servicii (Portainer, Minecraft, Coolify, PBS, Flowise, Gitea, Oracle)
14. **Container 103 (PBS)** - Proxmox Backup Server pentru backup-uri dedicate