小五的个人杂货铺

发表于2025-04-23|更新于2026-03-25|prometheus|监控•Prometheus•blackbox_exporter

简介blackbox_exporter 是 Prometheus 官方提供的一个 exporter，可以监控 HTTP、 HTTPS,、DNS、 TCP 、ICMP 等目标实例，从而实现对被监控节点进行监控和数据采集。promethes调用blackbox_exporter去访问目标监控服务器，实现指标的采集 HTTP/HTPPS：URL/API 可用性检测TCP：端口监听检测 ICMP：主机存活检测 DNS：域名解析地址：https://github.com/prometheus/blackbox_exporter 安装 / 使用使用kubernetes - deployment部署1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374757677787980apiVersion: v1kind: ConfigMapme...

jmx_exporter 的安装及配置使用

发表于2025-04-23|更新于2026-03-25|prometheus|Java•监控•Prometheus•JMX

参考： https://www.cnblogs.com/JIKes/p/18183537 https://prometheus.github.io/jmx_exporter 简介为了使用Prometheus监控JVM，你需要一个能够采集JVM指标的工具，比如jmx_exporter。地址：https://github.com/prometheus/jmx_exporter kube-prom operator监听grafana dashboard id【7727】

node_exporter 的安装及配置使用

发表于2025-04-23|更新于2026-03-25|prometheus|监控•Prometheus•node_exporter

简介node-export 主要用来做Linux服务器监控，比如服务器的进程数、消耗了多少 CPU、内存，磁盘空间，iops，tcp连接数等资源。 Node Exporter 是用于暴露 *NIX 主机指标的 Exporter，比如采集 CPU、内存、磁盘等信息。采用 Go 编写，不存在任何第三方依赖，所以只需要下载解压即可运行。 Exporter是Prometheus的一类数据采集组件的总称。它负责从目标处搜集数据，并将其转化为Prometheus支持的格式。与传统的数据采集组件不同的是，它并不向中央服务器发送数据，而是等待中央服务器主动前来抓取。 node-exporter用于采集服务器层面的运行指标，包括机器的loadavg、filesystem、meminfo等基础监控，类似于传统主机监控维度的zabbix-agent 数据接口：http://IP:9100/metrics 使用文档：https://prometheus.io/docs/guides/node-exporter/ GitHub：GitHub - prometheus/node_export...

process_exporter 的安装及配置使用

发表于2025-04-23|更新于2026-03-25|prometheus|监控•Prometheus•process_exporter

简介process-export主要用来做进程监控，比如某个服务的进程数、消耗了多少CPU、内存等资源安装 / 使用下载并程序放在/usr/local/bin下且赋权项目地址：https://github.com/ncabatoff/process-exporter 配置 mkdir -p /usr/local/process_exporter vim process-conf.yaml 具体配置文件参考 12345678910# 如果一个进程被多个匹配项匹配，则谁在前谁匹配到process_names: # 监控主机上所有进程，且groupname设置为"包含原始可执行文件的基本名称" - name: "{{.Comm}}" cmdline: - '.+' # 监控主机上进程名称符合hadoop的，且groupname设置为"包含所有由于应用cmdline正则表达式而产生的匹配项" - name:...

基于Micrometer和Prometheus实现度量和监控的方案

发表于2024-04-12|更新于2026-03-21|prometheus|Prometheus•Spring Boot

摘自：https://www.cnblogs.com/throwable/p/13257557.html 前提最近线上的项目使用了spring-actuator做度量统计收集，使用Prometheus进行数据收集，Grafana进行数据展示，用于监控生成环境机器的性能指标和业务数据指标。一般，我们叫这样的操作为"埋点"。SpringBoot中的依赖spring-actuator中集成的度量统计API使用的框架是Micrometer，官网是micrometer.io。在实践中发现了业务开发者滥用了Micrometer的度量类型Counter，导致无论什么情况下都只使用计数统计的功能。这篇文章就是基于Micrometer分析其他的度量类型API的作用和适用场景。全文接近3W字，内容比较干，希望能够耐心阅读，有所收获。 Micrometer提供的度量类库Meter是指一组用于收集应用中的度量数据的接口，Meter单词可以翻译为"米"或者"千分尺"，但是显然听起来都不是很合理，因此下文直接叫Meter，直接当成一个专有名词，理解...

关于 nf_conntrack 及 conntrack entries 使用率过高问题

发表于2024-02-19|更新于2026-03-25|prometheus|Linux•网络•Prometheus•nf_conntrack

Kubernetes 节点将conntrack_max值与节点上的 RAM 大小成比例地设置。高负载应用（尤其是在小型节点上）很容易超过conntrack_max，并导致连接复位和超时。理论conntrack 是建立在 Netlifier 框架之上的功能。它对于高性能的 Kubernetes 复杂网络至关重要，其中节点需要跟踪数千个 Pod 和服务之间的连接信息。在 Kubernetes 中, 默认值可以在 prometheus 指标中找到node_nf_conntrack_entries_limit（需要node_exporter） linux系统中可以通过以下指令查看【当然如果未配置过的话，默认值会以该公式「CONNTRACK_MAX = 内存 (bytes) / 16384 / (多少位 / 32)」计算出默认值】：sysctl net.netfilter.nf_conntrack_max conntrack_max值与节点的内存成正比，通常聚合代理类服务会需要持续跟踪大量连接【消耗大量的conntrack entries...

结合 Prometheus 调整 Kubernetes 资源限制

发表于2023-09-26|更新于2026-03-25|k8s|Kubernetes•Prometheus•资源限制•PromQL

转自： https://www.51cto.com/article/704723.html Kubernetes 资源限制往往是一个难以调整的配置，因为你必须在太严格或者太宽松的限制之间找到最佳的平衡点。通过本文，你可以学习到如何设置正确的 Kubernetes 资源限制：从检测到无限制的容器，到找出你应该在集群中正确配置的 Kubernetes 资源限制。我们假设你使用 Prometheus 来监控你的 Kubernetes 集群。这就是为什么本文中的每个步骤都使用 PromQL 查询进行示例说明的原因。检测没有 Kubernetes 资源限制的容器设置正确的 Kubernetes 资源限制的第一步是检测没有任何限制的容器。没有 Kubernetes 资源限制的容器可能会在你的节点中造成非常严重的后果。在最好的情况下，节点将开始按顺序或评分驱逐 pod。由于 CPU 节流，它们也会出现性能问题。在最坏的情况下，节点将由于内存不足而被终止。查找没有 Kubernetes 资源限制的容器根据命名空间查找没有限制 CPU 的容器 1sum by (namespace...

精简 Prometheus 指标以减少资源占用

发表于2023-03-13|更新于2026-03-25|prometheus|监控•性能优化•Prometheus•PromQL

前言随着 Prometheus 监控的组件、数量、指标越来越多，Prometheus 对计算性能的要求会越来越高，资源占用也会越来越高。在这种情况下，要优化 Prometheus 性能, 优化存储占用. 第一时间想到的可能是各种 Prometheus 的兼容存储方案, 如 Thanos 或 VM、Mimir 等。但是实际上虽然集中存储、长期存储、存储降采样及存储压缩可以一定程度解决相关问题，但是治标不治本。真正的本，还是在于指标量（series）过于庞大。治本之法，应该是减少指标量。有 2 种办法：解决高基数问题根据实际使用情况，只保留（keep）展示（Grafana Dashboards）和告警（prometheus rules）会用到的指标。高基数问题什么是基数(Cardinality)?基数的基本定义是指一个给定集合中的元素的数量。在Prometheus中指代series 的基数 (High Cardinality) 在 Prometheus 和可观察性的世界里，标签基数是非常重要的，因为它影响到你的监控系统的性能和资源使用。下面这张...

整合 Spring Boot 与 Prometheus 实现自定义监控指标

发表于2023-03-09|更新于2026-03-25|prometheus|监控•Prometheus•Spring Boot•Micrometer

我在第二章中有介绍使用koa整合Prometheus自定义指标，这里记录下整合Springboot和Prometheus实现自定义指标要在Spring Boot中使用Micrometer-registry-prometheus记录QPS和响应时间，可以按照以下步骤操作 Spring-boot-starter-actuatorSpringBoot中的spring-boot-starter-actuator依赖已经集成了对Micrometer的支持，其中的metrics端点的很多功能就是通过Micrometer实现的，prometheus端点默认也是开启支持的，实际上actuator依赖的spring-boot-actuator-autoconfigure中集成了对很多框架的开箱即用的API，其中prometheus包中集成了对Prometheus的支持，使得使用了actuator可以轻易地让项目暴露出prometheus端点，使得应用作为Prometheus收集数据的客户端，Prometheus（服务端软件）可以通过此端点收集应用中Micrometer的度量数据。整合M...

自定义监控指标开发(三):Grafana配置及使用

发表于2023-03-01|更新于2026-03-21|prometheus|Kubernetes•监控•Prometheus•Alertmanager•Grafana

介绍Grafana 是一款采用 go 语言编写的开源应用，可以从Elasticsearch，Prometheus，Graphite，InfluxDB等各种数据源中获取数据，并通过精美的图形将其可视化。除了Prometheus的AlertManager 可以发送报警，Grafana 同时也支持告警。Grafana 可以无缝定义告警在数据中的位置，可视化的定义阈值，并可以通过钉钉、email等平台获取告警通知。最重要的是可直观的定义告警规则，不断的评估并发送通知。由于Grafana alert告警比较弱，大部分告警都是通过Prometheus Alertmanager进行告警. 安装见：https://github.com/behappy-project/behappy-docker-application/tree/master/grafana 图表配置在时序图表配置场景下，我们需要核心关注配置的有: Metrics: promQL查询语句【注：当使用rancher部署方式时，此处编写会有乱码情况，解决办法是在PrometheusUI中编写粘贴到这里】 Legen...