Monitoring et reporting

YoupiDollarZ

Je suis un ananas
Salut les jeunes,

Je vous explique un peu la situation:
Au taff, on monitore en différents types de devices (serveurs windows, routeurs, firewalls, switches, SSL, etc.). A interval régulier, le
soft prend des mesures de différents composants: cpu, memoire, disques, activité réseau, etc.
Le soft avec lequel on fait ca peut nous générer des rapports sur une période donnée grâce aux données récupérées et stockées.

Le boss trouve ces rapports un peu pauvres, sans vraiment nous retourner de valeur ajoutée. Ok ton cpu / mémoire a eu un pic à un moment donné,
ton disque a grandi de X Go ce mois, etc.

J'ai donc été désigné volontaire pour sortir du contenu intéressant et pertinent de ces données avec ce que le soft nous rapporte.
J'ouvre donc ce topic pour voir un peu si vous aviez eu l'occasion de manipuler un peu le monitoring / reporting et voir ce que je pourrais faire de toute ces data.

Je ne me sens pas l'âme d'un data analyst mais y va bien falloir que je prenne cette casquette.

Merci d'avance la communauté !
 

Chamallow

Ololz
Tu nous refiles une com’ ?!
 

golog

Serie Addict!
T'a une liste des process utilisée en corrélation avec le pique de l'usage cpu / ram / etc.? Ça peut déjà être une piste vers un graphique final du style X application prend de plus en plus d'usage etc
 

Joon

Squadeur.
Tu parles de l'augmentation de taille disque utilisé, c'est bien de savoir qui ou quoi les a engendrés.
1. Pour repérer ce qui fait gonfler
2. Pour repérer les comportements suspects.
Évidemment, aucune intérêt d'ajouter la partie logs des containers/des VM.
Mais bien pour la partie refacturation des services et contrôle RGPD.

Ou autres points intéressant :
- le % d'utilisation des cartes réseaux pour mieux gérer ta balance de charge
- le temps de latence de réponse CPU, pour savoir si t'as trop de vcpu sur la machine et donc trop d'appel numa
- l'utilisation de tes datastores pour mieux les taillers
- le transfert disque physique et virtuel pour savoir si ta répartition sur les SAN/vSAN/grappe est ok
- etc.

Quand tu cherches une stat, demande-toi dans quel cas elle pourrait être utile et si elle te permets soit d'optimiser, soit de trouver un soucis préventivement.

Je suis également intéressé par ce thread, c'est bien le genre de truc où il est difficile de penser à tout.
Comme toi je ne suis pas un data analyst, mais j'aime bien savoir que "mon" infrastructure tourne comme une horloge. Et le meilleur moyen de m'en assurer c'est, pour moi, les deux points au dessus. Préventif et optimisation.
 
1er
OP
YoupiDollarZ

YoupiDollarZ

Je suis un ananas
Merci pour ton post Joon, c'est vrai que c'est pas facile de tout prendre en compte. Mesurer pour mesurer c'est pas full intéressant, faut se creuser le citron pour voir ce que ces data peuvent sortir comme résultat intéressant.

J'ai pas eu méga le temps d'avancer la dessus pour le moment par contre = /
 
Haut