小五的个人杂货铺

发表于2023-09-26|更新于2026-03-16|k8s|kubernetes•故障排查•性能优化•慢调用

概述接口慢调用是生产环境中常见且影响严重的问题，本文记录两次完整的排查过程，展示从现象发现到根因定位的系统化方法论。核心收获： 🔍 系统化的排查思路 📊 多层次问题定位方法 🛠️ 实用监控工具组合 💡 预防性措施建议适用场景：接口响应时间过长用户体验下降系统资源异常雪崩风险预警问题背景现象描述用户反馈：系统商户端出现响应慢、加载慢的问题影响范围：移动端应用加载缓慢部分接口超时用户体验显著下降慢调用的危害业务影响：维度影响后果用户体验加载慢、卡顿应用卸载率↑，品牌口碑↓ 项目交付无法达到SLA 项目延期，客户投诉系统稳定性雪崩效应服务级联故障，系统不可用雪崩效应链路： 1234567891011接口慢调用 ↓超时增多 ↓大量重试 ↓资源耗尽 ↓服务降级/不可用 ↓级联故障（雪崩）排查思路分层排查法自顶向下的排查策略： 123451. 用户层：确认影响范围2. 网关层：检查状态码和日志3. 应用层：分析资源使用情况4. 服务层：追踪调用链路5. 数据层：排...

Kubernetes CPU 限制深度解析：为何移除反而提速 22 倍

发表于2023-09-26|更新于2026-03-16|k8s|容器化•kubernetes•性能优化•CPU限制

概述Kubernetes CPU 限制看似能保护集群稳定性，实则可能因 Linux 内核 Bug 导致不必要的 CPU 流控，严重影响服务性能。Buffer 团队通过移除 CPU 限制，实现了服务响应速度最高 22 倍的提升。核心发现： ⚠️ CPU 限制触发不必要流控 🐛 Linux 内核 < 4.19 存在 Bug 🚀 移除限制后性能大幅提升 ⚖️ 需要权衡稳定性和性能适用场景：服务响应延迟高 CPU 未满但仍被流控追求极致性能内核版本 < 4.19 原文链接： https://blog.fleeto.us/post/k8s-faster-services-no-cpu-limits/推荐配合阅读：站内《最大最小内存设置为一致》文章背景Buffer 的 Kubernetes 实践基本情况：项目数据开始时间 2016 年管理工具 kops 节点数量 ~60 个（AWS）容器数量 ~1500 个服务架构微服务参考： Kubernetes 官方案例研究 CPU 限制机制工作原理CPU 限制（C...

精简 Prometheus 指标以减少资源占用

发表于2023-03-13|更新于2026-03-25|prometheus|监控•性能优化•Prometheus•PromQL

前言随着 Prometheus 监控的组件、数量、指标越来越多，Prometheus 对计算性能的要求会越来越高，资源占用也会越来越高。在这种情况下，要优化 Prometheus 性能, 优化存储占用. 第一时间想到的可能是各种 Prometheus 的兼容存储方案, 如 Thanos 或 VM、Mimir 等。但是实际上虽然集中存储、长期存储、存储降采样及存储压缩可以一定程度解决相关问题，但是治标不治本。真正的本，还是在于指标量（series）过于庞大。治本之法，应该是减少指标量。有 2 种办法：解决高基数问题根据实际使用情况，只保留（keep）展示（Grafana Dashboards）和告警（prometheus rules）会用到的指标。高基数问题什么是基数(Cardinality)?基数的基本定义是指一个给定集合中的元素的数量。在Prometheus中指代series 的基数 (High Cardinality) 在 Prometheus 和可观察性的世界里，标签基数是非常重要的，因为它影响到你的监控系统的性能和资源使用。下面这张...