小五的个人杂货铺

发表于2022-05-01|更新于2026-03-25|prometheus|Kubernetes•监控•Prometheus•PromQL

rancher官方文档一个不错的Prometheus中文网站上面网站的一个备用地址 AlertManager 何时报警 Alertmanager重复/缺失告警现象探究及两个关键参数group_wait和group_interval的释义 Kubernetes集群监控指标项详解 K8s about pod resource monitoring(记录些常用的Prometheus规则expr) 最近5分钟 Pod 磁盘 IO 写入大于 1001sum(rate(container_fs_writes_bytes_total{pod!=""}[5m])) by (pod,namespace,instance) > 100 最近30分钟 Pod 重启1changes(kube_pod_container_status_restarts_total[30m])>0 Ready 状态（配合 for 参数，比如 for=5m 表示 Ready 持续 5 分钟，说明启动有问题）1kube_pod_container_statu...

使用 AlertManager 进行告警管理

发表于2022-05-01|更新于2026-03-25|prometheus|Kubernetes•Rancher•监控•Prometheus•Alertmanager

rancher官方文档一个不错的Prometheus中文网站 Prometheus典型的告警规则1234567891011121314151617181920groups: - name: wechat-rule-group rules: - alert: wechat-rule annotations: summary: |- ==========begin=========== [报警名称]：{{ $labels.alertname }} [报警实例]：{{ $labels.instance }} [报警命名空间]：{{ $labels.namespace }} [报警pod]：{{ $labels.pod }} [报警阈值]：{...

结合 Rancher 使用 Prometheus 监控系统

发表于2022-05-01|更新于2026-03-25|prometheus|Kubernetes•Rancher•监控•Prometheus•Alertmanager

rancher官方文档一个不错的Prometheus中文网站 Grafana安装文档注: 本文Rancher版本为rancher2.6.x 一定要记得在hosts文件编辑这些集群的host, 使这些台机器可以通过hostname互通安装Charts 配置详细配置：https://github.com/prometheus-community/helm-charts/blob/main/charts/kube-prometheus-stack/values.yaml 配置Prometheus、Alerting以及Grafana 默认Prometheus的admin api是不开启的，如果希望通过api方式操作Prometheus数据，则需要打开admin api 可以配置各项【grafana/prometheus/alertmanager】的enable参数来控制是否安装此工作负载已知问题有一个已知问题，K3s 群集需要更多的默认内存。如果你在 K3s 集群上启用监控，rancher lab建议将prometheus.prometheus...