Facebook login!



mod_vvisit_countermod_vvisit_countermod_vvisit_countermod_vvisit_countermod_vvisit_countermod_vvisit_counter
mod_vvisit_counteraujourd'hui94
mod_vvisit_counterhier230
mod_vvisit_countercette semaine94
mod_vvisit_counterla semaine dernière1634
mod_vvisit_countermois en cours1290
mod_vvisit_counterle mois dernier7117
mod_vvisit_counterdepuis toujours170774

Ce site est listé dans la catégorie Web designer : Aides et tutoriels création web de l'annuaire Olivier Duffez et O. Duffez

Supervision et surveillance avec nagios Envoyer
Note des utilisateurs: / 4
MauvaisTrès bien 
Écrit par olivier   
Mercredi, 18 Février 2009 12:14

Introducion à Nagios

Nagios est un outil de Supervision Libre. Il est disponible sous Licence GNU GPL version 2. Dévéloppé sous le nom de NetSaint en 1999 par Ethan Galstad, le projet est ensuite renommé en Nagios ("Nagios Ain't Gonna Insist On Sainthood") pour des raisons de droits de marques en 2001. En effet, une société avait déjà déposé ce nom et Ethan a préféré modifier le nom de son projet plutôt que de consommer du temps et de l‘argent.

Les développeurs principaux sont Ethan Galdstad pour le coeur de Nagios, Karl DeBisschop, Subhendu Ghosh, Ton Voon et Stanley Hopcroft sont les développeurs principaux des plugins Nagios. Cependant, de nombreuses personnes ont participé et continue de participer au projet. Notamment sur la partie plugins, de nombreux développeurs mettent à disposition de la communauté leurs propres plugins. La partie "Liens" (en cours de construction pour le moment) indique une série de sites web mettant à disposition des plugins.

Supervision?

La supervision informatique consiste à "surveiller" le fonctionnement d'un serveur ou d'un équipement réseau pour anticiper les plantages ou diagnostiquer rapidement une panne. Attention, surveiller n'est pas à rapprocher du terme espionner : il ne s'agit pas de vérifier que les personnes font leur travail correctement, juste que l'équipement devant avoir des fonctions bien précises les remplisse normalement.

Tour rapide des fonctionnalités

Eléments supervisables par Nagios

Nagios peut superviser de nombreux éléments. De part mon expérience, il est simple de l'étendre car il est conçu dans cette optique. Voici les types de serveurs supervisables par Nagios et avec lesquels j'ai travaillé:
  • les Windows NT/2000/2003/XP
  • tous les Linux
  • tous les Unix (au moins Sun Solaris, AIX)
  • les AS400
Tout équipement compatible avec le protocole SNMP peut être supervisé par Nagios. Ceci vaut pour les serveurs, les switches, les routeurs, les firewalls, les robots de sauvegarde, etc. De même, il est possible de configurer Nagios comme récupérateur de trappes SNMP. Dans ce cas, Nagios est passif et attend les remontées d'alertes des équipements. Nagios supervise à la fois le hardware que le software. Au niveau du hardware, il suffit d'installer l'agent SNMP spécifique au constructeur du serveur (Dell, Compaq, IBM, ...). Au niveau hardware sont généralement disponibles les éléments suivants:
  • état de chacun des CPU
  • état des barrettes de RAM
  • état de chacun des disques physiques
  • état de la carte RAID
  • état des ventilateurs et des alimentations (branché/débranché, fonctionnement correct/incorrect)
  • température des équipements
Au niveau software, il existe de nombreux plugins permettant de superviser:
  • le taux d'occupation du CPU, de la RAM, du SWAP, des filesystems (partitions)
  • le nombre de process
  • la présence de point de montage NFS ou de partage
  • l'ouverture d'un port TCP
  • la réponse à une requête particulière (SQL, HTTP, POP, IMAP, ...)
  • les éléments de la CCMS de SAP.

Notifications/envoie d'alertes

Nagios dispose de plusieurs moyen pour vous avertir d'un problème. Le premier est l'interface web : elle est consultable avec un simple navigateur web, sans fonctions avancées et contraignantes (pas de plugin Javascript, applet Java, Flash, ... nécessaires). Cette interface web est orientée technique : les techniciens l'apprécient beaucoup car elle est claire, efficace et fonctionnelle. Les décideurs ne la trouvent pas très agréable au niveau visuel. Cependant, certains techniciens ayant fait la migration de Patrol vers Nagios m'ont affirmé qu'ils préféraient tous l'interface de Nagios. Cependant, il n'est pas possible de rester constamment devant une interface web sauf si l'on dispose d'une équipe dédiée à cela (souvent appelée pupitre, service desk ou plus rarement exploitation). Il existe d'autres moyens d'avertir les administrateurs. Le second moyen le plus courant est le mail. Dès qu'un problème survient, un mail peut être envoyé à un équipe d'administration. Toutes les informations nécessaires sont disponibles dans le mail. Enfin, que se passe-t-il si le serveur de mails ne fonctionne plus et qu'il n'est pas possible de mettre une équipe devant l'interface web constamment? Il suffit alors de mettre en place une notification par envoi de SMS tout simplement. En effet, il est tout à fait possible de connecter un modem au serveur dédié à l'envoi de SMS. Sinon, la notification au travers du protocole Jabber (protocole de messagerie instantané) est tout aussi efficace et moins chère.

Escalades

Les escalades permettent d'envoyer une notification à une équipe d'administration différente de l'équipe habituelle. Cette fonctionnalité est mise en place en général pour avertir une équipe si jamais un problème grave survient et que l'équipe en charge n'a ni corrigé ni pris en compte le problème. Il faut donc qu'une autre équipe soit avertie pour qu'il soit corrigé dans les plus brefs délais.

Actions de corrections

Avant de remonter une alarme, Nagios peut tenter de corriger le problème de lui même. Ceci est appelé action de correction. Les actions de corrections sont paramétrables et facilitent l'administration. Lorsque Nagios détecte qu'un processus n'est pas lancé, il peut essayer de démarrer le service pour corriger le problème.

Prise en compte

La prise en compte correspond à un acknowledge. Lorsqu'un élément tombe en panne, l'interface de Nagios remonte l'information. L'administrateur voit que l'élément est en panne. Au lieu de laisser le problème dans l'état, l'administrateur prend en compte ce problème. Ce qui signifie qu'il va sur l'interface Nagios, sélectionne le problème et clique sur le lien correspondant. Il ajoute un commentaire par exemple « le disque dur est cassé, je vais le changer ». Dès que l'administrateur a fait cette action, les autres administrateurs voient que quelqu'un a analysé le problème. Ils n'ont pas à se concentrer sur celui-ci et peuvent ainsi vaquer à leurs occupations. De plus, la prise en compte permet d'éviter l'escalade : si un problème est pris en compte, l'escalade n'est pas activée.

Période de maintenance

Tous les serveurs ne peuvent être en état de marche constamment. De plus, il fat de temps en temps arrêter des services pour faire leur mise à jour notamment pour des raisons de sécurité. Or, si un service est arrêté, Nagios risque de remonter un problème. Pour éviter ce cas, il est possible de définir une période de maintenance. Cette période de maintenance est prévue à l'avance et ponctuelle (non récurrente). Durant ce laps de temps, même si le service est détecté en état d'erreur, il est indiqué dans l'interface web que c'est normal car une période de maintenance est prévue.

Cartographie

La cartographie permet de localiser sur une carte, l'ensemble des serveurs et équipements réseaux. Leur état est représenté et les dépendances entre chaque serveur est indiqué. Bien entendu, Nagios détecte automatiquement si un ensemble de serveurs est indisponible à cause d'un élément réseau auquel l'ensemble des serveurs est connecté en panne.

source: http://cedrictemple.net


Mise à jour le Lundi, 17 Août 2009 22:03
 

site créé par

Aidez nous

Merci pour votre don

Amount: 

Devenez Fan!

facebook-logo1

Partenaires

- BiblioTuto

- 321sitepro

RocketTheme Joomla Templates