小五的个人杂货铺

发表于2023-03-01|更新于2026-03-21|prometheus|Kubernetes•监控•Prometheus•Alertmanager•Grafana

介绍Grafana 是一款采用 go 语言编写的开源应用，可以从Elasticsearch，Prometheus，Graphite，InfluxDB等各种数据源中获取数据，并通过精美的图形将其可视化。除了Prometheus的AlertManager 可以发送报警，Grafana 同时也支持告警。Grafana 可以无缝定义告警在数据中的位置，可视化的定义阈值，并可以通过钉钉、email等平台获取告警通知。最重要的是可直观的定义告警规则，不断的评估并发送通知。由于Grafana alert告警比较弱，大部分告警都是通过Prometheus Alertmanager进行告警. 安装见：https://github.com/behappy-project/behappy-docker-application/tree/master/grafana 图表配置在时序图表配置场景下，我们需要核心关注配置的有: Metrics: promQL查询语句【注：当使用rancher部署方式时，此处编写会有乱码情况，解决办法是在PrometheusUI中编写粘贴到这里】 Legen...

Prometheus 告警推送机制详解

发表于2022-11-15|更新于2026-03-25|prometheus|监控•Prometheus•Alertmanager•告警

AlertManager 中的几个容易混淆的参数首先在 Prometheus 中有两个全局的参数 scrape_interval 和 evaluation_interval。 scrape_interval 参数表示的是 Prometheus 从各种 metrics 接口抓取指标数据的时间间隔 evaluation_interval 参数表示的是 Prometheus 对报警规则进行评估计算的时间间隔。 group_by 为了避免连续发送类似的告警通知，可以将相关告警分到同一组中进行告警。分组机制可以将详细的告警信息合并成一个通知，在某些情况下，比如由于系统宕机导致大量的告警被同时触发，在这种情况下分组机制可以将这些被触发的告警合并为一个告警通知，避免一次性接受大量的告警通知： 1group_by: ['alertname', 'job'] group_wait 当一个新的报警分组被创建后，需要等待至少 group_wait 时间来初始化告警。这样实际上就缓冲了从 Prometheus 发送到 AlertManager 的告警，将...

分析 Alertmanager 发送告警消息的逻辑

发表于2022-11-15|更新于2026-03-25|prometheus|监控•Prometheus•Alertmanager•告警

摘自: https://blog.csdn.net/qq_35952638/article/details/108077895 本文使用 Prometheus v2.18.1 ，Alertmanager v0.20.0本文主要分析 Alertmanager 什么情况下会发送告警消息，避免对用户造成消息轰炸。 Alertmanager 的一般工作流程 Prometheus 每隔 interval 时长执行一次 alert rule 。如果执行结果包含 n 个时间序列，则认为存在 n 个警报，通过 HTTP 通信发送 alerting 状态的消息给 Alertmanager 。 Alertmanager 收到之后，先根据 route 判断它属于哪个 group 、应该发送给哪个 receiver 。再判断该 group 当前是否处于冷却阶段、是否被 Silence 静音、是否被 Inhibit 抑制。如果都没有，则立即发送告警消息给用户。如果 Prometheus 再次执行 alert rule 时，发现执行结果为空，则认为警报已解决，立即产生 resolved 状态的...

使用 AlertManager 进行告警管理

发表于2022-05-01|更新于2026-03-25|prometheus|Kubernetes•Rancher•监控•Prometheus•Alertmanager

rancher官方文档一个不错的Prometheus中文网站 Prometheus典型的告警规则1234567891011121314151617181920groups: - name: wechat-rule-group rules: - alert: wechat-rule annotations: summary: |- ==========begin=========== [报警名称]：{{ $labels.alertname }} [报警实例]：{{ $labels.instance }} [报警命名空间]：{{ $labels.namespace }} [报警pod]：{{ $labels.pod }} [报警阈值]：{...

结合 Rancher 使用 Prometheus 监控系统

发表于2022-05-01|更新于2026-03-25|prometheus|Kubernetes•Rancher•监控•Prometheus•Alertmanager

rancher官方文档一个不错的Prometheus中文网站 Grafana安装文档注: 本文Rancher版本为rancher2.6.x 一定要记得在hosts文件编辑这些集群的host, 使这些台机器可以通过hostname互通安装Charts 配置详细配置：https://github.com/prometheus-community/helm-charts/blob/main/charts/kube-prometheus-stack/values.yaml 配置Prometheus、Alerting以及Grafana 默认Prometheus的admin api是不开启的，如果希望通过api方式操作Prometheus数据，则需要打开admin api 可以配置各项【grafana/prometheus/alertmanager】的enable参数来控制是否安装此工作负载已知问题有一个已知问题，K3s 群集需要更多的默认内存。如果你在 K3s 集群上启用监控，rancher lab建议将prometheus.prometheus...