|
Introducion à NagiosNagios est un outil de Supervision Libre. Il est disponible sous Licence GNU GPL version 2. Dévéloppé sous le nom de NetSaint en 1999 par Ethan Galstad, le projet est ensuite renommé en Nagios ("Nagios Ain't Gonna Insist On Sainthood") pour des raisons de droits de marques en 2001. En effet, une société avait déjà déposé ce nom et Ethan a préféré modifier le nom de son projet plutôt que de consommer du temps et de l‘argent. Les développeurs principaux sont Ethan Galdstad pour le coeur de Nagios, Karl DeBisschop, Subhendu Ghosh, Ton Voon et Stanley Hopcroft sont les développeurs principaux des plugins Nagios. Cependant, de nombreuses personnes ont participé et continue de participer au projet. Notamment sur la partie plugins, de nombreux développeurs mettent à disposition de la communauté leurs propres plugins. La partie "Liens" (en cours de construction pour le moment) indique une série de sites web mettant à disposition des plugins. Supervision?La supervision informatique consiste à "surveiller" le fonctionnement d'un serveur ou d'un équipement réseau pour anticiper les plantages ou diagnostiquer rapidement une panne. Attention, surveiller n'est pas à rapprocher du terme espionner : il ne s'agit pas de vérifier que les personnes font leur travail correctement, juste que l'équipement devant avoir des fonctions bien précises les remplisse normalement. Tour rapide des fonctionnalitésEléments supervisables par NagiosNagios peut superviser de nombreux éléments. De part mon expérience, il est simple de l'étendre car il est conçu dans cette optique. Voici les types de serveurs supervisables par Nagios et avec lesquels j'ai travaillé: - les Windows NT/2000/2003/XP
- tous les Linux
- tous les Unix (au moins Sun Solaris, AIX)
- les AS400
Tout équipement compatible avec le protocole SNMP peut être supervisé par Nagios. Ceci vaut pour les serveurs, les switches, les routeurs, les firewalls, les robots de sauvegarde, etc. De même, il est possible de configurer Nagios comme récupérateur de trappes SNMP. Dans ce cas, Nagios est passif et attend les remontées d'alertes des équipements. Nagios supervise à la fois le hardware que le software. Au niveau du hardware, il suffit d'installer l'agent SNMP spécifique au constructeur du serveur (Dell, Compaq, IBM, ...). Au niveau hardware sont généralement disponibles les éléments suivants: - état de chacun des CPU
- état des barrettes de RAM
- état de chacun des disques physiques
- état de la carte RAID
- état des ventilateurs et des alimentations (branché/débranché, fonctionnement correct/incorrect)
- température des équipements
Au niveau software, il existe de nombreux plugins permettant de superviser: - le taux d'occupation du CPU, de la RAM, du SWAP, des filesystems (partitions)
- le nombre de process
- la présence de point de montage NFS ou de partage
- l'ouverture d'un port TCP
- la réponse à une requête particulière (SQL, HTTP, POP, IMAP, ...)
- les éléments de la CCMS de SAP.
Notifications/envoie d'alertesNagios dispose de plusieurs moyen pour vous avertir d'un problème. Le premier est l'interface web : elle est consultable avec un simple navigateur web, sans fonctions avancées et contraignantes (pas de plugin Javascript, applet Java, Flash, ... nécessaires). Cette interface web est orientée technique : les techniciens l'apprécient beaucoup car elle est claire, efficace et fonctionnelle. Les décideurs ne la trouvent pas très agréable au niveau visuel. Cependant, certains techniciens ayant fait la migration de Patrol vers Nagios m'ont affirmé qu'ils préféraient tous l'interface de Nagios. Cependant, il n'est pas possible de rester constamment devant une interface web sauf si l'on dispose d'une équipe dédiée à cela (souvent appelée pupitre, service desk ou plus rarement exploitation). Il existe d'autres moyens d'avertir les administrateurs. Le second moyen le plus courant est le mail. Dès qu'un problème survient, un mail peut être envoyé à un équipe d'administration. Toutes les informations nécessaires sont disponibles dans le mail. Enfin, que se passe-t-il si le serveur de mails ne fonctionne plus et qu'il n'est pas possible de mettre une équipe devant l'interface web constamment? Il suffit alors de mettre en place une notification par envoi de SMS tout simplement. En effet, il est tout à fait possible de connecter un modem au serveur dédié à l'envoi de SMS. Sinon, la notification au travers du protocole Jabber (protocole de messagerie instantané) est tout aussi efficace et moins chère. EscaladesLes escalades permettent d'envoyer une notification à une équipe d'administration différente de l'équipe habituelle. Cette fonctionnalité est mise en place en général pour avertir une équipe si jamais un problème grave survient et que l'équipe en charge n'a ni corrigé ni pris en compte le problème. Il faut donc qu'une autre équipe soit avertie pour qu'il soit corrigé dans les plus brefs délais. Actions de correctionsAvant de remonter une alarme, Nagios peut tenter de corriger le problème de lui même. Ceci est appelé action de correction. Les actions de corrections sont paramétrables et facilitent l'administration. Lorsque Nagios détecte qu'un processus n'est pas lancé, il peut essayer de démarrer le service pour corriger le problème. Prise en compteLa prise en compte correspond à un acknowledge. Lorsqu'un élément tombe en panne, l'interface de Nagios remonte l'information. L'administrateur voit que l'élément est en panne. Au lieu de laisser le problème dans l'état, l'administrateur prend en compte ce problème. Ce qui signifie qu'il va sur l'interface Nagios, sélectionne le problème et clique sur le lien correspondant. Il ajoute un commentaire par exemple « le disque dur est cassé, je vais le changer ». Dès que l'administrateur a fait cette action, les autres administrateurs voient que quelqu'un a analysé le problème. Ils n'ont pas à se concentrer sur celui-ci et peuvent ainsi vaquer à leurs occupations. De plus, la prise en compte permet d'éviter l'escalade : si un problème est pris en compte, l'escalade n'est pas activée. Période de maintenanceTous les serveurs ne peuvent être en état de marche constamment. De plus, il fat de temps en temps arrêter des services pour faire leur mise à jour notamment pour des raisons de sécurité. Or, si un service est arrêté, Nagios risque de remonter un problème. Pour éviter ce cas, il est possible de définir une période de maintenance. Cette période de maintenance est prévue à l'avance et ponctuelle (non récurrente). Durant ce laps de temps, même si le service est détecté en état d'erreur, il est indiqué dans l'interface web que c'est normal car une période de maintenance est prévue. CartographieLa cartographie permet de localiser sur une carte, l'ensemble des serveurs et équipements réseaux. Leur état est représenté et les dépendances entre chaque serveur est indiqué. Bien entendu, Nagios détecte automatiquement si un ensemble de serveurs est indisponible à cause d'un élément réseau auquel l'ensemble des serveurs est connecté en panne. source: http://cedrictemple.net
|