Clusterüberwachung mit Ganglia
Ganglia ist ein skalierbares, verteiltes Monitoring-System fuer High-Performance-Computing-Systeme wie Cluster und Grids. Es basiert auf einem
hierarchischen Design fuer Einzel-Cluster und Cluster-Verbaende. Ganglia unterstuetzt Clustergroeßen bis zu 2000 Knoten.
1.
Ganglia Pakete
Ganglia besteht aus den folgenden Paketen:
Ganglia Meta Daemon (gmetad)
Ganglia Monitoring Daemon (gmond)
Ganglia PHP Web-Frontend
Zusaetzlich muss noch das Round Robin Database Tool (RRDtool) installiert werden
Die Ganglia-Server-Applikation... mehr
2.
Ganglia Überwachungstool starten
Aufruf lokal:
[root@m1 ~]# firefox localhost/ganglia
Aufruf remote:
http:// 134.169.46.49/ganglia <--(Browser)
root@faiserver:~# firefox 172.22.178.1:/ganglia
Ganglia Ausgabe
mehr
3.
Skript zur Darstellung von Temperaturen, Drehzahlen in Gnglia
[root@hive bin]# vim gtemp.sh
#!/bin/sh
# Liest die Temperaturen aus und schreibt diese mit Hilfe von gmetric nach Ganglia
# Autor: sysGe GmbH
# Datum: 16.11.2006
# notwendige Variablen vorbesetzen
TEMP="/tmp/sdt.out"
PROC1="/usr/bin/ipmitool"
OPTION="-I open sdr"... mehr
4.
Skript zum abschalten von Nodes bei Übertemperatur
[root@hive bin]# vim temp-check.sh
#!/bin/bash
# Skript, welcher die Nodes herunterfaehrt, sobald bestimmte Temperaturen erreicht werden.
# /usr/local/bin/temp-check.sh testet gegen die CPU- und Umgebungstemperatur (Parameter: temp-check.sh 60 65)
# Sollte eine Node eine dieser Temperaturen... mehr
5.
Einträge unter /etc/crontab zum Start von Skripten
(/usr/local/bin/gtemp.sh und /usr/local/bin/temp-check.sh alle 10 Minuten)
[root@hive bin]# vi /etc/crontab
SHELL=/bin/bash
PATH=/sbin:/bin:/usr/sbin:/usr/bin
MAILTO=root
HOME=/
# run-parts
01 * * * * root run-parts /etc/cron.hourly
02 4 * * * root run-parts... mehr
