Monitoring et reporting

YoupiDollarZ · 12 Mai 2019

Salut les jeunes,

Je vous explique un peu la situation:
Au taff, on monitore en différents types de devices (serveurs windows, routeurs, firewalls, switches, SSL, etc.). A interval régulier, le
soft prend des mesures de différents composants: cpu, memoire, disques, activité réseau, etc.
Le soft avec lequel on fait ca peut nous générer des rapports sur une période donnée grâce aux données récupérées et stockées.

Le boss trouve ces rapports un peu pauvres, sans vraiment nous retourner de valeur ajoutée. Ok ton cpu / mémoire a eu un pic à un moment donné,
ton disque a grandi de X Go ce mois, etc.

J'ai donc été désigné volontaire pour sortir du contenu intéressant et pertinent de ces données avec ce que le soft nous rapporte.
J'ouvre donc ce topic pour voir un peu si vous aviez eu l'occasion de manipuler un peu le monitoring / reporting et voir ce que je pourrais faire de toute ces data.

Je ne me sens pas l'âme d'un data analyst mais y va bien falloir que je prenne cette casquette.

Merci d'avance la communauté !

Chamallow · 12 Mai 2019

Tu nous refiles une com’ ?!

golog · 12 Mai 2019

T'a une liste des process utilisée en corrélation avec le pique de l'usage cpu / ram / etc.? Ça peut déjà être une piste vers un graphique final du style X application prend de plus en plus d'usage etc

YoupiDollarZ · 12 Mai 2019

Ouais j'y ai pensé, le soft gère le process tracking mais c'est pas implémenté.

Chamallow a dit:
Tu nous refiles une com’ ?!

"Six pièces d'or et un sandwich au poulet !"

Joon · 13 Mai 2019

Tu parles de l'augmentation de taille disque utilisé, c'est bien de savoir qui ou quoi les a engendrés.
1. Pour repérer ce qui fait gonfler
2. Pour repérer les comportements suspects.
Évidemment, aucune intérêt d'ajouter la partie logs des containers/des VM.
Mais bien pour la partie refacturation des services et contrôle RGPD.

Ou autres points intéressant :
- le % d'utilisation des cartes réseaux pour mieux gérer ta balance de charge
- le temps de latence de réponse CPU, pour savoir si t'as trop de vcpu sur la machine et donc trop d'appel numa
- l'utilisation de tes datastores pour mieux les taillers
- le transfert disque physique et virtuel pour savoir si ta répartition sur les SAN/vSAN/grappe est ok
- etc.

Quand tu cherches une stat, demande-toi dans quel cas elle pourrait être utile et si elle te permets soit d'optimiser, soit de trouver un soucis préventivement.

Je suis également intéressé par ce thread, c'est bien le genre de truc où il est difficile de penser à tout.
Comme toi je ne suis pas un data analyst, mais j'aime bien savoir que "mon" infrastructure tourne comme une horloge. Et le meilleur moyen de m'en assurer c'est, pour moi, les deux points au dessus. Préventif et optimisation.

YoupiDollarZ · 14 Mai 2019

Merci pour ton post Joon, c'est vrai que c'est pas facile de tout prendre en compte. Mesurer pour mesurer c'est pas full intéressant, faut se creuser le citron pour voir ce que ces data peuvent sortir comme résultat intéressant.

J'ai pas eu méga le temps d'avancer la dessus pour le moment par contre = /

Monitoring et reporting

YoupiDollarZ

Je suis un ananas

Chamallow

Ololz

golog

Serie Addict!

YoupiDollarZ

Je suis un ananas

Joon

Squadeur.

YoupiDollarZ

Je suis un ananas

Autres sujets récents