Métriques de surveillance clés
Le tableau de bord du temps de requête et le tableau de bord d'utilisation de l'UC sont les deux métriques de surveillance principales qui vous permettront de surveiller le cluster Elasticsearch (ES) et d'identifier les changements au fil du temps de manière dynamique.
Les deux métriques de surveillance critiques suivantes vous permettent de surveiller dynamiquement le cluster Elasticsearch et les variations de zone au fil du temps :
- Tableau de bord temps de requête
- Tableau de bord d'utilisation d'UC
Les captures d'écran suivantes affichent le temps de requête et le temps de traitement d'une tranche de temps donnée. Les valeurs minimale, maximale et moyenne sont affichées dans le tableau latéral, tandis que le graphique présente les valeurs maximales.
Le graphique est simple à comprendre et peut être utilisé pour identifier rapidement les problèmes. Tout saut soudain dans les valeurs de temps de requête maximal indiquerait un problème grave dans le cluster, et une investigation plus approfondie est obligatoire. Le graphique représente une situation dans laquelle le temps de traitement de la requête est perturbé pendant une période plus longue, et cette période doit être corrélée avec les autres affichages pour déterminer la source du problème.
Des pics soudains, puis un retour à la normale sont également possibles. Ces pics sont généralement dus à des événements externes affectant le temps de traitement de la requête.

Le déplacement du curseur de la souris sur l'image fournit les valeurs réelles pour cet intervalle de temps.

- Utilisation de l'UC
- Ce tableau de bord est donc un tableau de bord critique qui peut vous alerter d'un comportement inhabituel ou d'une difficulté du système à faire face à la charge de travail en cours.
Consommation de ressources
Le groupe de consommation de ressources fournit des informations détaillées sur les opérations du cluster Elasticsearch et la disponibilité des ressources. L'état d'équilibre des opérations doit être bien compris, et tout écart présente une alerte pour les menaces potentielles ou l'instabilité dans le système qui doit faire l'objet d'un examen.
Utilisation de l'UC
Le graphique d'âge de l'UC est relativement simple. Il présente chaque nœud ES avec une couleur distincte dans le graphique et, en même temps, un tableau avec des valeurs min, max et moyenne pour chaque nœud du cluster ES. La détection des situations où le taux d'utilisation de l'unité centrale est très élevé (famine) ou faible (conflit et ralentissement du taux de traitement) est simple et perceptible. L'image suivante montre comment l'utilisation de l'UC passe à plus de 80 % pendant que le trafic et l'indexation ont lieu sur le site.

Réseau
Les graphiques des ressources réseau sont relativement simples, mais fourniront des données supplémentaires et une détermination facile si un volume de requêtes excédentaires perturbe l'exécution des opérations.
Opérations de récupération de place – Durée GC
La durée du segment de mémoire JVM et de la récupération de place (GC) peut être suivie à l'aide du tableau de bord de durée GC. Ce tableau de bord affiche la durée utilisée pour effacer le segment de mémoire JVM des objets morts afin de créer de l'espace pour les nouvelles allocations. L'opération représente une surcharge de 10 % et son effet est négligeable.

Utilisation de la mémoire de la JVM
L'allocation de mémoire et l'extension de l'espace de segment de mémoire dans la machine virtuelle Java (JVM) peuvent être suivies par le tableau de bord de l'âge de la mémoire. Un exemple est présenté dans le graphique suivant :

L'espace de segment de mémoire total est surévalué et pourrait prêter à confusion. Plusieurs métriques sont signalées, mais en raison de la configuration du segment de mémoire ES (min=max), seul le segment de mémoire utilisée par Elasticsearch-master-NNN s'affiche.
On s'attend généralement à ce que les métriques de segment de mémoire utilisée soient inférieures aux métriques de segment de mémoire maximale, tandis que le graphique d'utilisation de l'UC représentera une consommation normale et régulière des ressources. Le graphique Durée GC doit afficher un faible temps système et un court temps passé à effectuer la récupération de place.
Toutefois, si la métrique de segment de mémoire utilisée est fréquemment maximale et proche de la métrique de segment de mémoire maximale, l'opération constante est toujours présente. Cela indique que le segment de mémoire globale dans ES est insuffisant et doit être augmenté.