小五的个人杂货铺

发表于2023-09-26|更新于2026-03-25|k8s|Kubernetes•高可用

如果 master 节点挂掉，已经在节点上运行起来的 Pod 还是可以继续对外提供服务，但是与调度和管理相关的工作（如动态扩展、部署新的服务、新的 Pod 等）将无法执行。 K8s 集群相关的数据都存储在 etcd 上（部分发行版如 k3s 可存储在 MySQL/PostgreSQL 上），master 本身属于无状态服务，K8s 支持多 master 结构来达到高可用（HA）。

Kustomize 使用教程与最佳实践

发表于2023-09-26|更新于2026-03-25|k8s|Kubernetes•Kustomize•GitOps

Kustomize 现代化使用教程与最佳实践为什么选择 Kustomize？Kustomize 是 Kubernetes 原生的配置管理工具（自 k8s 1.14 起内置于 kubectl）。与 Helm 的模板引擎（Template）不同，Kustomize 采用 Overlay（叠加）的机制。无模板（Template-free）：不需要学习复杂的模板语法（如 Go Template），直接操作原生的 YAML。声明式（Declarative）：所有的修改都通过 YAML 文件声明，非常适合 GitOps 工作流。基础与覆盖（Base & Overlay）：维护一份基础配置（Base），通过补丁（Overlay）派生出开发、测试、生产等不同环境。核心概念与目录结构一个符合现代最佳实践的 Kustomize 项目结构如下： 1234567891011121314151617181920212223~/my-project├── base # 【基础层】存放通用的资源定义 ├── app ...

优雅停止（Graceful Shutdown）与 502/504 报错

发表于2023-09-26|更新于2026-03-21|k8s|Kubernetes•容器化

优雅退出，业务侧需要做的任务是处理SIGTERM信号如果 Pod 正在处理大量请求（比如 1000 QPS+）时，因为节点故障或「竞价节点」被回收等原因被重新调度，可能会观察到在容器被 terminate 的一段时间内出现少量 502/504。为了搞清楚这个问题，需要先理解清楚 terminate 一个 Pod 的流程： 123451、Pod 被删除，状态置为 Terminating。kube-proxy 更新转发规则，将 Pod 从 service 的 endpoint 列表中摘除掉，新的流量不再转发到该 Pod。2、如果 Pod 配置了 preStop Hook ，将会执行。3、kubelet 对 Pod 中各个 container 发送 SIGTERM 信号以通知容器进程开始优雅停止。4、等待容器进程完全停止，如果在 terminationGracePeriodSeconds 内 (默认 30s) 还未完全停止，就发送 SIGKILL 信号强制杀死进程。5、所有容器进程终止，清理 Pod 资源。注意：1和2 两个工作是异步发生的，所以在未设置 preSt...

关于 DNS 解析的一些认识

发表于2023-09-26|更新于2026-03-21|k8s|Kubernetes•容器化

Kubernetes 中的 DNS在 Kubernetes 中，服务发现有几种方式：①：基于环境变量的方式②：基于内部域名的方式基本上，使用环境变量的方式很少，主要还是使用内部域名这种服务发现的方式。其中，基于内部域名的方式，涉及到 Kubernetes 内部域名的解析，而 kubedns，是 Kubernetes 官方的 DNS 解析组件。从 1.11 版本开始，kubeadm 已经使用第三方的 CoreDNS 替换官方的 kubedns 作为 Kubernetes 集群的内部域名解析组件，我们的重点，是 CoreDNS，但是在开始 CoreDNS 之前，需要先了解下 kubedns Kubernetes 中的域名是如何解析的在 Kubernetes 中，比如服务 a 访问服务 b，对于同一个 Namespace下，可以直接在 pod 中，通过 curl b 来访问。对于跨 Namespace 的情况，服务名后边对应 Namespace即可。比如 curl b.default。那么，使用者这里边会有几个问题： ①：服务名是什么？②：为什么同一个 Namespace 下，直...

关于 K8s 的资源分配与限制

发表于2023-09-26|更新于2026-03-21|k8s|Kubernetes•容器化

相关概念引自kubesphere - requests与limits 简介为了实现 K8s 集群中资源的有效调度和充分利用， K8s 采用requests和limits两种限制类型来对资源进行容器粒度的分配。每一个容器都可以独立地设定相应的requests和limits。这 2 个参数是通过每个容器 containerSpec 的 resources 字段进行设置的。一般来说，在调度的时候requests比较重要，在运行时limits比较重要。一些本地临时存储的配置 **注: ** 当容器申请内存超过limits时会被oomkill，并根据重启策略进行重启。而cpu超过limit则是限流，但不会被kill 由于CPU资源是可压缩的，进程无论如何也不可能突破上限，因此设置起来比较容易。对于Memory这种不可压缩资源来说，它的Limit设置就是一个问题了，如果设置得小了，当进程在业务繁忙期试图请求超过Limit限制的Memory时，此进程就会被Kubernetes杀掉 1234567891011121314# requests: 可以使用requests来设置各容器需...

Kubernetes IP 地址完全指南：类型、范围与固定 IP 配置

发表于2023-09-26|更新于2026-03-25|k8s|Kubernetes•网络•ClusterIP

概述Kubernetes 集群中存在多种类型的 IP 地址，包括 Cluster IP、Pod IP、Node IP 等。理解这些 IP 的作用范围和配置方法对于网络规划至关重要。核心内容： 🌐 Kubernetes 各类 IP 地址详解 📋 IP 地址范围配置 🔒 固定 IP 地址实现方案 ⚙️ K8s/K3s 配置差异 Kubernetes IP 地址类型Cluster IP（服务 IP）定义： Service 的虚拟 IP 地址，用于集群内部服务访问特点：特性说明作用范围仅集群内部可访问生命周期与 Service 绑定（除非删除 Service） DNS 解析通过 Service Name 自动解析负载均衡自动分发流量到后端 Pod 工作机制： 1Client → Service Name → kube-dns 解析 → Cluster IP → kube-proxy → Pod 示例： 123456789101112apiVersion: v1kind: Servicemetadata: name:...

定时自动重启 Pod 服务

发表于2023-09-26|更新于2026-03-25|k8s|Kubernetes•K3s•运维•CronJob

方法1：滚动重启从 1.15 版开始，Kubernetes 允许滚动重启 Deployment，这是最快的重启方式： 1kubectl rollout restart deployment [deployment_name] 该命令会逐步关闭并重启 Deployment 中的每个 Pod 容器，重启过程中应用仍然可用，因为大多数容器仍在运行。方法2：使用环境变量通过设置或更改环境变量，可以强制 Pod 重新启动并同步变更。例如，更改容器部署日期： 1kubectl set env deployment [deployment_name] DEPLOY_DATE="$(date)" 方法3：缩放副本数使用 scale 命令将副本数设置为 0 来关闭容器： 1kubectl scale deployment [deployment_name] --replicas=0 再将副本数恢复为大于零的值来重新启动： 1kubectl scale deployment [deployment_name] --replicas=1 Kubernetes 会销...

最大最小内存设置为一致

发表于2023-09-26|更新于2026-03-25|k8s|Kubernetes•容器化•JVM•K3s

在 Kubernetes 中，像 CPU 这样的资源被称作"可压缩资源"（compressible resources）。它的典型特点是，当可压缩资源不足时，Pod 只会"饥饿"，但不会退出。而像内存这样的资源，则被称作"不可压缩资源"（incompressible resources）。当不可压缩资源不足时，Pod 就会因为 OOM（Out-Of-Memory）被内核杀掉。 1. 容器最小内存和最大内存设置为一致简单来理解：最小内存等同于 k8s 的 resources.requests 资源，最大内存等同于 resources.limits 资源。参考：为容器和 Pod 分配内存资源 | Kubernetes 上述配置中，查看对应的 YAML 文件可以看到，对应的 memory 的请求和限制保持一致。一般情况下，对于核心资源，我们推荐 requests == limits，这是为什么呢？ Pod 的三种 QoS 类别 Guaranteed：当 Pod 里的每一个 Container 都同时设置了 request...

查看 Pod 是否正常打印日志

发表于2023-09-26|更新于2026-03-25|k8s|Kubernetes•K3s•Shell脚本•监控告警

查看 Pod 是否正常打印日志，并发送 Webhook 通知到企业微信。 12345678910111213141516171819202122232425262728293031323334#!/bin/sh# 获取当前UTC时间utc_now=`date -u`# 将时间转换为timestamptimestamp_now=`date -d "$utc_now" +%s`PODNAME=NAMASPACE=function restart_pod() { for i in `kubectl get pod -n iot|grep $PODNAME|awk '{print $1}'`;do for time in `kubectl logs --tail=1 --timestamps $i -n $NAMASPACE | awk '{print $1}'`;do timestamp_pod=`date -d "$time" +%...

根据 PID 查找 Pod 信息

发表于2023-09-26|更新于2026-03-25|k8s|Kubernetes•K3s•调试•容器

编辑 ~/.bashrc，粘贴以下函数，并执行 source ~/.bashrc 使其生效，使用时执行 podinfo $pid通过 PID 获取 Pod 名称12345podinfo() { CID=$(cat /proc/$1/cgroup | awk -F '/' '{print $5}') CID=$(echo ${CID:0:8}) crictl inspect -o go-template --template='{{index .status.labels "io.kubernetes.pod.name"}}' $CID} 通过 PID 获取 Pod UID123podUid() { cat /proc/$1/mountinfo | grep "etc-hosts" | awk -F / {'print $6'}...