Sophie: nagios-check_mk-doc-1.2.3i1-3.mga4 noarch

nagios-check_mk-doc-1.2.3i1-3.mga4.noarch.rpm

Idee zu neuem Verfahren mit Check-Intervallen
---------------------------------------------

Problemstellung: Manche der Plugins/Befehle im Agenten dauern zu lange,
als dass man sie jedes mal ausfÃ¼hren mÃ¶chte. Aktuell gibt es einen Trick,
dass man mit einem Cache-File arbeitet - wie z.B. der ORACLE-Agent.
Das ist etwas umstÃ¤ndlich und funktioniert auch nicht bei Windows.

Ich habe jetzt eine neue Idee, die das ganze vor allem fÃ¼r den Agenten
vereinfacht und die Intelligenz ins zentrale Check_MK verlagert. Es 
funktioniert so:

Es wird eine neue Sektions-Option eingefÃ¼hrt (analog zu sep(...)).
Diese sagt dem Check_MK, dass eine Sektion bis zu einem bestimmten
Zeitpunkt gÃ¼ltig ist und (maximal) solange vom Agenten nicht mehr neu gesendet
werden wird.

<<<foo:valid(1353854778)>>>
foo1 bar test
foo2 bar test2
...

Innerhalb der nÃ¤chsten 300 Sekunden kann diese Sektion fehlen. In diesem
Fall soll Check_MK einfach - aus der alten Datei von tmp/check_mk/cache -
den Wert vom letzten Mal nehmen. Erst nach Ablauf der Zeit soll die Ã¼bliche
Warnung ausgegeben werden, dass Daten vom Agenten fehlen.

Check_MK muss jetzt so vorgehen: Wenn es feststellt, dass eine Sektion fehlt
(und nur dann!), lÃ¤dt es die Cache-Datei. Wenn nicht vorhanden, gilt die
Sektion als endgÃ¼ltig fehlend. Falls sie vorhanden ist, wird die Sektion
aus der Cache-Datei geholt. Wenn der Zeitstempel noch nicht erreicht ist,
wird die Sektion genommen und zur Ausgabe des Agenten hinzugefÃ¼gt und auch
an die dann neu erstellte Cache-Datei wieder angehÃ¤ngt.

Gleichzeitig aber - und jetzt kommts(!) - wird Check_MK den Check dann
nicht einfach mit den Cache-Daten nochmal ausfÃ¼hren, sondern einfach
auslassen. Dadurch ist die Ausgabe in der GUI korrekt, wo man sieht,
wie alt Check-Ergebnisse sind. Das Einzige, was jetzt noch doof ist, ist
die neue Staleness-Funktion, die jetzt nicht weiÃ, wie oft die Daten
eigentlich kommen sollen.

Um die Implementierung mit dem Plugins zu vereinfachen (siehe unten),
wird ferner die MÃ¶glichkeit eingefÃ¼hrt, Sektionsoptionen anonym fÃ¼r
zukÃ¼nftige Sektionen zu setzen:

<<<:valid(1353854778)>>> --> Gilt fÃ¼r alle zukÃ¼nftigen Sektionen
<<<:valid()>>> --> LÃ¶scht die Option wieder

Implementierung im Agenten (Linux):

Hier muss sich der Agent irgendwie merken, wann er eine Sache das letzte
Mal ausgefÃ¼hrt hat. Hier ist eine mÃ¶gliche LÃ¶sung fÃ¼r das Verzeichnis
plugins: Man fÃ¼hrt darunter Unterverzeichnisse ein, die einer Anzahl von
Minuten entsprechen (oder Sekunden)?

/usr/lib/check_mk_agent/plugins/10/mk_oracle

Das bedeutet, dass die Daten nur alle 10 Minuten berechnet werden sollen.
Im Agenten ist das dann so implementiert (man verwendet die modification time
des plugins selbst als Indikator, wann es das letzte mal aufgerufen wurde):

# Execute timed plugins
cd $PLUGINS_DIR
for dir in $(find -type d) ; do
    pushd $dir
    date '+<<<:valid(%s)>>>' -d "now + $dir min"
    for plugin in $(find -cmin +$dir) ; do
        touch $plugin
        ./plugin
    done
    popd
done

Frage ist noch, wie man das effizient bei eingebauten Plugins machen
soll. Gut wÃ¤re es schon, wenn das geht.

Implementierung im Agenten (Windows):

Im Windows-Agenten merkt man sich die AusfÃ¼hrungszeit einfach im Speicher.
ZusÃ¤tzlich kann man in [global] auch die GÃ¼ltigkeiten fÃ¼r die eingebauten
Sektionen konfigurieren. Das sieht dann so aus:

[global]
    valid logwatch = 10
    valid winperf_phydisk = 5


SNMP:

Hier kann man das Intervall einfach per Regel steuern:

snmp_check_interval["filesystem"] = [
  ( 3, ALL_HOSTS, ),
]

Hier geht man einfach nach der Checkgruppe. Das Item kann man natÃ¼rlich
nicht beeinflussen, da ein Check ja immer ganz oder garnich lÃ¤uft.
ZusÃ¤tzlich kÃ¶nnte ein Check - analog zu dem was ja dann der Linux-Agent
macht - selbst einen Default fÃ¼r seine HÃ¤ufigkeit vorgeben. Das ist
dann ein neuer SchlÃ¼ssel in der check_info:

check_info["hr_fs"] = {
    ....
    "interval"  : 5,
}

Um das hinzubekommen, kÃ¶nnte man mit Zeitstempeln auf den Check_MK
Cachefiles arbeiten. Diese sind ja pro Checktyp separat. Also kÃ¶nnte
das gehen.

Noch ein Problem gibt es: wenn ein manuelles Reschedule ausgefÃ¼hrt wurde,
wÃ¤re es natÃ¼rlich schÃ¶n, wenn das Intervall jetzt nicht berÃ¼cksichtigt
wÃ¼rde. Dazu mÃ¼sste man bei SNMP Checks das Intervall ignorieren und bei den
Agenten-Checks zumindest auf die Daten aus dem Cache-File zugreifen und doch
zum Nagios senden, auch wenn diese ja nicht aktuell sind. Immerhin werden
jetzt neue Check-Parameter aktiv, auch wenn der Agent wieder die gleichen
Daten liefert. Um das hinzubekommen mÃ¼sste man irgendwie rausbekommen,
ob ein Check manuell angeworfen wurde oder nicht. Ist das mÃ¶glich?
Sendet Nagios hier etwas?