La liste "aide" |
Janvier 2009 |
| Description: Liste d'aide du site http://lea-linux.org | |
Effectivement, ils sont chacun sur un onduleur dont les batteries sont en train de faiblir.
Moins surprenant si la cause est une cause externe physique, et non un
problme de dfaut de fabrication, comme par exemple une surchauffe ou
une mauvaise alimentation lectrique (surtension).
Par prcaution, je surveillerais bien ces deux paramtres :
1) Electricit: la qualit de l'alimentation interne de la mobo, le
transformateur de courant, et la qualit du courant externe, y compris
les branchements, prises de mauvaise qualit. (une fois encore, tout
dbrancher, tout rebrancher)
Ces serveurs sont-il sur onduleur rellement de qualit, et en bon
tat (tester rgulirement la ralit: simuler une panne de secteur
EDF).
Si l'alimentation interne du serveur est suspecte, attention,Je vais creuser les SME7Admin : il doit bien y avoir une surveillance du SMART ...
surveillance accrue mettre en place, car d'autres problmes peuvent
vraisemblablement arriver.
Tester les caractristiques du transfo interne, le remplacer en
maintenance prventive en cas de doute.
Les HDD peuvent avoir souffert => utiliser SMART pour analyser.
http://fr.wikipedia.org/wiki/Self-Monitoring,_Analysis_and_Reporting_Technology
La salle est climatise (environ 24), et impossible d'activer les senseurs de la SME.
2) Qualit du refroidissement. Mettre en place un suivi de temprature
de la salle et des CPU.
C'est comme cela que j'ai vu que les mini-radiateurs de mon portable
taient encrasss,
la temprature ne baissait pas sous un seuil normal.
Tout cela est bien sr mettre en balance avec un budget Temps,
argent. La maintenance prventive, c'est intressant creuser.
Equilibre Prvenir/Gurir.