prometheus,k8s学习网站记录

发表于2022-05-01|更新于2023-06-16|prometheus

|总字数:452|阅读时长:1分钟|浏览量:

rancher官方文档

一个不错的Prometheus中文网站

上面网站的一个备用地址

AlertManager 何时报警

Alertmanager重复/缺失告警现象探究及两个关键参数group_wait和group_interval的释义

Kubernetes集群监控指标项详解

K8s about pod resource monitoring(记录些常用的Prometheus规则expr)

最近5分钟,pod 磁盘io利用/写, 大于100的

1	sum(rate(container_fs_writes_bytes_total{pod!=""}[5m])) by (pod,namespace,instance) > 100

最近30分钟pod重启

1	changes(kube_pod_container_status_restarts_total[30m])>0

Ready状态(配合for参数, 比如`for=5m, Ready持续5分钟，说明启动有问题`)

1	kube_pod_container_status_ready != 1

pod运行状态

1	kube_pod_container_status_running != 1

the containers readiness check succeeded(过去5分钟)

1	min_over_time(kube_pod_container_status_ready{pod!~".helm."}[5m]) == 0

Pod的状态为未运行

1	sum (kube_pod_status_phase{phase!="Running"}) by (namespace,pod,phase)

内存使用率过高, 大于70%

1	(node_memory_MemTotal_bytes - (node_memory_MemFree_bytes + node_memory_Buffers_bytes + node_memory_Cached_bytes)) / node_memory_MemTotal_bytes * 100 > 70

cpu使用率过高, 大于70%

1	100 * (1 - avg(irate(node_cpu_seconds_total{mode="idle"}[5m])) by(instance)) > 70

磁盘使用率过高, 大于70%

1	100 * (node_filesystem_size_bytes{fstype=~"xfs\|ext4"} - node_filesystem_avail_bytes) / node_filesystem_size_bytes > 70

Number of conntrack are getting close to the limit(最大连接追踪数接近上限)

参考:

https://deploy.live/blog/kubernetes-networking-problems-due-to-the-conntrack/

通过(node_nf_conntrack_entries / on (pod) node_nf_conntrack_entries_limit / on (pod) group_right kube_pod_info) > 0.75查看, 如果利用rancher安装, 默认警告值为75%

通过node_nf_conntrack_entries_limit 查看各节点的上限数, 8核默认为262144, 4核默认为其一半

可参考nf_conntrack:table full 引发的问题进行修改

方法之一: 修改参数

vim /etc/sysctl.conf
#加大 ip_conntrack_max 值
net.ipv4.ip_conntrack_max = 393216
net.ipv4.netfilter.ip_conntrack_max = 393216
#降低 ip_conntrack timeout时间
net.ipv4.netfilter.ip_conntrack_tcp_timeout_established = 300
net.ipv4.netfilter.ip_conntrack_tcp_timeout_time_wait = 120
net.ipv4.netfilter.ip_conntrack_tcp_timeout_close_wait = 60
net.ipv4.netfilter.ip_conntrack_tcp_timeout_fin_wait = 120

增加完以上内容后，通过sysctl -p 使配置生效。不过该方法缺点：一是重启iptables后，ip_conntrack_max值又会变成默认值，需要重新sysctl -p

文章作者: 小五

文章链接: https://xiaowu95.wang/posts/b8e5a8a1/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源小五的个人杂货铺！

k8s rancher prometheus alertmanager 监控

感谢支持

微信
支付宝

相关推荐

自定义监控指标开发(三):Grafana配置及使用

介绍Grafana 是一款采用 go 语言编写的开源应用，可以从Elasticsearch，Prometheus，Graphite，InfluxDB等各种数据源中获取数据，并通过精美的图形将其可视化。除了Prometheus的AlertManager 可以发送报警，Grafana 同时也支持告警。Grafana 可以无缝定义告警在数据中的位置，可视化的定义阈值，并可以通过钉钉、email等平台获取告警通知。最重要的是可直观的定义告警规则，不断的评估并发送通知。由于Grafana alert告警比较弱，大部分告警都是通过Prometheus Alertmanager进行告警. 安装见：https://github.com/behappy-project/behappy-docker-application/tree/master/grafana 图表配置在时序图表配置场景下，我们需要核心关注配置的有: Metrics:...

自定义监控指标开发(二):Prometheus介绍及PromQL的使用

介绍Prometheus是一套成熟且流行的系统和服务监控系统，它几乎满足了监控的所有能力。 Grafana, 它和Prometheus相比更侧重的是图形化展示，有强大、灵活的仪表盘体系，我们会把基于Prometheus收集的数据作为数据源导入到Grafana。监控模式目前，监控系统采集指标有两种方式，一种是『推』，另一种就是『拉』：推的代表有 ElasticSearch，InfluxDB，OpenTSDB 等，需要你从程序中将指标使用 TCP，UDP 等方式推送至相关监控应用，只是使用 TCP 的话，一旦监控应用挂掉或存在瓶颈，容易对应用本身产生影响，而使用 UDP 的话，虽然不用担心监控应用，但是容易丢数据。拉的代表，主要代表就是 Prometheus，让我们不用担心监控应用本身的状态。而且可以利用 DNS-SRV 或者 Consul 等服务发现功能就可以自动添加监控。如何监控Prometheus 监控应用的方式非常简单，只需要进程暴露了一个用于获取当前监控样本数据的 HTTP 访问地址。这样的一个程序称为Exporter，Exporter 的实例称为一个...

自定义监控指标开发(四):配合K8s收集服务指标信息

介绍在Kubernetes中，Prometheus Operator可以通过两种方式自动发现监控目标：PodMonitor和ServiceMonitor。PodMonitor用于监控由单个Pod定义的服务，而ServiceMonitor用于监控Kubernetes Service中的所有Pod。要使用PodMonitor和ServiceMonitor，需要在Kubernetes中定义它们，然后Prometheus Operator将从这些定义中自动发现和创建监控目标。在Kubernetes中，Prometheus Operator可以通过两种方式自动发现监控目标：PodMonitor和ServiceMonitor。PodMonitor用于监控由单个Pod定义的服务，而ServiceMonitor用于监控Kubernetes Service中的所有Pod。要使用PodMonitor和ServiceMonitor，需要在Kubernetes中定义它们，然后Prometheus...

网站已更新最新版本点击刷新