结合prometheus调整Kubernetes资源限制

转自： https://www.51cto.com/article/704723.html

Kubernetes 资源限制往往是一个难以调整的配置，因为你必须在太严格或者太宽松的限制之间找到最佳的平衡点。

通过本文，你可以学习到如何设置正确的 Kubernetes 资源限制：从检测到无限制的容器，到找出你应该在集群中正确配置的 Kubernetes 资源限制。我们假设你使用 Prometheus 来监控你的 Kubernetes 集群。这就是为什么本文中的每个步骤都使用 PromQL 查询进行示例说明的原因。

检测没有 Kubernetes 资源限制的容器

设置正确的 Kubernetes 资源限制的第一步是检测没有任何限制的容器。没有 Kubernetes 资源限制的容器可能会在你的节点中造成非常严重的后果。在最好的情况下，节点将开始按顺序或评分驱逐 pod。由于 CPU 节流，它们也会出现性能问题。在最坏的情况下，节点将由于内存不足而被终止。

查找没有 Kubernetes 资源限制的容器

根据命名空间查找没有限制 CPU 的容器

1	sum by (namespace)(count by (namespace,pod,container)(kube_pod_container_info{container!=""}) unless sum by (namespace,pod,container)(kube_pod_container_resource_limits{resource="cpu"}))

根据命名空间查找没有限制内存的容器

1	sum by (namespace)(count by (namespace,pod,container)(kube_pod_container_info{container!=""}) unless sum by (namespace,pod,container)(kube_pod_container_resource_limits{resource="memory"}))

发现太多容器没有 Kubernetes 资源限制?

也许你发现了很多没有Kubernetes资源限制的容器。现在让我们关注最危险的。如何查看?很简单，只需找到使用最多资源且没有Kubernetes资源限制的前10个容器。

使用最多CPU且没有CPU限制的前10个容器

1	topk(10,sum by (namespace,pod,container)(rate(container_cpu_usage_seconds_total{container!=""}[5m])) unless sum by (namespace,pod,container)(kube_pod_container_resource_limits{resource="cpu"}))

使用最多内存且没有内存限制的前10个容器

1	topk(10,sum by (namespace,pod,container)(container_memory_usage_bytes{container!=""}) unless sum by (namespace,pod,container)(kube_pod_container_resource_limits{resource="memory"}))

检测 Kubernetes 资源限制过于严格的容器

检测 CPU 限制过于严格的容器

如果容器非常接近其 CPU 限制，在需要执行比平时更多的 CPU 操作时，由于 CPU 节流，它的性能会下降。

使用此查询查找 CPU 使用率接近其限制的容器：

1	(sum by (namespace,pod,container)(rate(container_cpu_usage_seconds_total{container!=""}[5m])) / sum by (namespace,pod,container)(kube_pod_container_resource_limits{resource="cpu"})) > 0.8

检测内存限制过于严格的容器

如果容器接近其内存限制并超过了它，它将被终止。

这张图表显示了一个容器如何增加它的内存使用量，直到它达到限制并被终止。

使用此查询查找内存使用量接近其限制的容器：

1	(sum by (namespace,pod,container)(container_memory_usage_bytes{container!=""}) / sum by (namespace,pod,container)(kube_pod_container_resource_limits{resource="memory"})) > 0.8

如何设置正确的 Kubernetes 资源限制?

一种办法是观察一段时间我们想要限制的容器的资源使用情况。为此，我们需要把注意力集中在相同类型和工作负载的容器上(deployment, daemonset, statefulset等)。在这里，我们有两种策略：

保守策略

我们将选择每个时间段消耗最多的容器的值。如果我们将限制设置为该值，容器将不会耗尽资源。

使用保守策略找到正确的 CPU 限制

max by (namespace,owner_name,container)((rate(container_cpu_usage_seconds_total{container!="POD",container!=""}[5m])) * on(namespace,pod) group_left(owner_name) avg by (namespace,pod,owner_name)(kube_pod_owner{owner_kind=~"DaemonSet|StatefulSet|Deployment"}))

使用保守策略找到正确的内存限制

max by (namespace,owner_name,container)((container_memory_usage_bytes{container!="POD",container!=""}) * on(namespace,pod) group_left(owner_name) avg by (namespace,pod,owner_name)(kube_pod_owner{owner_kind=~"DaemonSet|StatefulSet|Deployment"}))

激进策略

我们将选择99分位数作为限制。这将排除掉那1%超出限制的值。如果存在你不想要的偶发异常或峰值，这是一个很好的策略。

使用激进的策略找到正确的 CPU 限制

quantile by (namespace,owner_name,container)(0.99,(rate(container_cpu_usage_seconds_total{container!="POD",container!=""}[5m])) * on(namespace,pod) group_left(owner_name) avg by (namespace,pod,owner_name)(kube_pod_owner{owner_kind=~"DaemonSet|StatefulSet|Deployment"}))

使用激进的策略找到正确的内存限制

quantile by (namespace,owner_name,container)(0.99,(container_memory_usage_bytes{container!="POD",container!=""}) * on(namespace,pod) group_left(owner_name) avg by (namespace,pod,owner_name)(kube_pod_owner{owner_kind=~"DaemonSet|StatefulSet|Deployment"}))