Mise en place d'une stack de Monitoring (Log/Trace/Métrique)
Besoins
- Collecte des métriques MainCluster / SubCluster
- Collecte des logs MainCluster / SubCluster
- Collecte des traces MainCluster / SubCluster
- Alerting
- Santé des clusters
- Santé des applications
- Reporting
- Bilan de santé a la semaine auto
- Réactivité
- Si app commence a trop consommer et flag comme non critique, scale a 0 (ou juste MR sur GitOps ?)
- GitOps && Automatisable
- Injection des configurations via GitOps ou solution Gitopsifiable
- Automatisation des déploiements et des mises à jour
- Gestion des secrets et des configurations sensibles (Toute les briques doivent communiquer de manière sécurisée)
Possibilités Techniques
- Prometheus = Stockage Metric > A Challenger
- Tempo = Stockage Trace > A Challenger
- Loki = Stockage Log > A Challenger
- Grafana = Visualisation > A Challenger
Source
- kubelet /metrics/resource
- https://github.com/prometheus/node_exporter
- https://opentelemetry.io/docs/platforms/kubernetes/collector/components/
Collection Pipeline
Vector
Database
- Gigapipe => Basiquement Clickhouse mais en polyglot
Metrics
Traces
- Tempo
- Clickhouse
- VictoriaTraces
- Gigapipe
- Elasticsearch => Nécessite l'APM et aucune info ne dis que l'endpoint otel est dispo en SelfHosted
- OpenObserve
Logs
Waiting
Visualisation
Grafana
Signoz
Signoz parait être assez cool. Si vous voulez plus d'info je vous invite a aller voir le stream de TheRealSeboss666.
CONTRE
- Zookeeper
Pour
Le produis semble vachement bien et super intelligent (Sauf que Zookeeper)
Alerting
- Alertmanager -> Prometheus only
- Karma => Dashboard only
All-in-one
Conclusion
Status 30 Août 2025
Pas d'alerting dans le graph pour le moment, je n'ai pas encore de solutions qui me convienne
Status 31 Août 2025
Sont retenues :
- Collection
- Vector
- OpenTelemetry
- Database
- ClickHouse
- Visualization
- Grafana