watchdog

Det finns en funktion i IPMI som kan övervaka ifall servern hängt sig och isåfall starta om den: watchdog. För att få igång detta måste tjänsten installeras och IPMI konfigureras så att den även startar watchdog. Börja med att installera tjänsten ”watchdog”:

# yum -y –enablerepo=el5_u5_base install watchdog

När den är installerad så ska man ändra konfigurationsfilen /etc/watchdog.conf så att följande parametrar är aktiverade:

watchdog-device=/dev/watchdog
logtick=60
realtime=yes
priority=1
pidfile=/var/run/syslogd.pid

Parametern ”logtick” gör att det loggas i Syslog var 600:e sekund (60 * 10 som är default för ”interval”) att servern lever.

Sätt watchdog att starta varje gång servern bootar:

# chkconfig watchdog on

Tala om för BMC:n via IPMI att den ska starta sin timer och låta watchdog resetta den, det görs i filen /etc/sysconfig/ipmi genom att ändra raden IPMI_WATCHDOG samt IPMI_WATCHDOG_OPTIONS:

IPMI_WATCHDOG=”yes”
IPMI_WATCHDOG_OPTIONS=”timeout=300 start_now=1 action=power_cycle”
IPMI_POWEROFF=yes
IPMI_POWERCYCLE=yes

För information om parametrarna finns följande kommando:

# modinfo ipmi_watchdog

Starta om IPMI och watchdog så den kan få kontakt med BMC:

# service ipmi restart
# service watchdog start

För mig fungerar det inte att stoppa ipmi, endast en omstart av servern dög 😦

För att stoppa watchdog och BMC timern så räcker det med att stoppa watchdogtjänsten, BMC:n kommer att ställas till att inte göra något när timern räknat ner:

# service watchdog stop

Vill man av någon anledning stoppa BMC timern så kan den stängas av:

# ipmitool bmc watchdog off

Nu ska i alla fall både watchdog och BMC timern vara satta ur spel, det bör göras innan man t.ex. försöker sig på att flasha om BMC eller BIOS eller liknande 🙂

För att se statusen för BMC:n finns följande kommando, notera att timern (”Present Countdown”) resettas med jämna mellanrum om tjänsten watchdog är igång:

# ipmitool bmc watchdog get

För att åter starta BMC:s timer (”reset” verkar vara det som funkar, det förväntade ”on” accepteras inte?):

# ipmitool bmc watchdog reset
# service watchdog stop
# service watchdog start

Watchdog behöver startas om efter att timern i BMC stoppas / startas annars kommer BMC:n inte att göra något när den når timeout eftersom den inte fått instruktion om vad den ska göra. ”Watchdog Timer Action” kommer att kvarstå vid defaultvärdet ”no action” istället för ”power cycle” som tjänsten watchdog sätter.

Av någon anledning så lyssnar inte DELL servrarna på inställningen ”timeout=300” som sätts i filen /etc/sysconfig/ipmi vid IPMI_WATCHDOG_OPTIONS utan det sätts till 60 automagiskt när tjänsten watchdog startas.

Det mesta på denna sida har jag plockat ihop här och här.

Lämna en kommentar