Incident – Proxmox Crash After Power Outage
Problème rencontré
Suite à une coupure de courant, le serveur a subi un crash disque au redémarrage.
Constats lors du redémarrage :
- Le serveur a booté sur le CD-ROM au lieu du HDD.
- Le boot order dans le BIOS avait été réinitialisé.
- Le démarrage a été forcé manuellement sur le disque dur.
Après démarrage du système :
- Les services Proxmox ne démarraient plus
- Le cluster Proxmox était arrêté
- Le filesystem était monté en lecture seule
Message observé :
Cela signifie que le système de fichiers a détecté une erreur et s’est verrouillé en lecture seule.
Cause du problème
Le fichier :
était corrompu ou incorrect.
Conséquences :
- le hostname ne pouvait plus être résolu
- le service pve-cluster refusait de démarrer
- le filesystem cluster pmxcfs ne se montait pas
- le dossier /etc/pve restait vide
Le service affichait l’état suivant :
Comme /etc/pve est un filesystem virtuel, s'il ne se monte pas, le dossier apparaît vide.
Diagnostic réalisé
Vérification du montage du filesystem
Résultat observé :
Le système était donc monté en lecture seule.
Vérification de la base de configuration du cluster
Présence du fichier attendu :
Vérification du service cluster
Résultat :
Solution appliquée
1. Correction du fichier hosts
Modification du fichier :
Ajout de la résolution du hostname vers l’IP du serveur.
Exemple :
Cela permet au système de résoudre correctement le nom du node Proxmox.
2. Réparation du système de fichiers
Exécution d'une réparation du filesystem :
afin de corriger les erreurs provoquées par le crash disque.
3. Redémarrage du cluster
Vérification :
4. Vérification du montage du filesystem Proxmox
Le dossier doit maintenant contenir les configurations :
5. Redémarrage des services Proxmox
6. Redémarrage du serveur
7. Correction du boot order dans le BIOS
Modification du boot order dans le Setup BIOS :
- HDD en premier
- CD-ROM en second
Après modification :
- le serveur boote automatiquement sur Proxmox
- plus besoin de forcer le boot manuellement
Conclusion
L’incident a été causé par :
- une coupure de courant
- une corruption du système de fichiers
- une corruption du fichier /etc/hosts empêchant la résolution du hostname
Cela a provoqué :
- l’arrêt du service pve-cluster
- l’absence de montage du filesystem /etc/pve
- l’arrêt des services Proxmox.
La correction du fichier /etc/hosts, la réparation du filesystem, puis le redémarrage du cluster et des services Proxmox ont permis de restaurer le fonctionnement normal du serveur.