常用 Kubernetes 诊断命令

news/2024/7/4 7:46:36 标签: kubernetes, 容器, 云原生

1 集群信息 

  • 显示 Kubernetes 版本:kubectl version
  • 显示集群信息:kubectl cluster-info
  • 列出集群中的所有节点:kubectl get nodes
  • 查看一个具体的节点详情:kubectl describe node <node-name>
  • 列出所有命名空间:kubectl get namespaces
  • 列出所有命名空间中的所有 pod:kubectl get pods --all-namespaces

2 Pod 诊断

  • 列出特定命名空间中的 pod:kubectl get pods -n <namespace>
  • 查看一个 Pod 详情:kubectl describe pod <pod-name> -n <namespace>
  • 查看 Pod 日志:kubectl logs <pod-name> -n <namespace>
  • 尾部 Pod 日志:kubectl logs -f <pod-name> -n <namespace>
  • 在 pod 中执行命令:kubectl exec -it <pod-name> -n <namespace> -- <command>

Pod 健康检查

  • 检查 Pod 准备情况:kubectl get pods <pod-name> -n <namespace> -o jsonpath='{.status.conditions[?(@.type=="Ready")].status}'
  • 检查 Pod 事件:kubectl get events -n <namespace> --field-selector involvedObject.name=<pod-name>

Service诊断 

  • 列出命名空间中的所有服务:kubectl get svc -n <namespace>
  • 查看一个服务详情:kubectl describe svc <service-name> -n <namespace>

5 Deployment诊断

  • 列出命名空间中的所有Deployment:kubectl get deployments -n <namespace>
  • 查看一个Deployment详情:kubectl describe deployment <deployment-name> -n <namespace>
  • 查看滚动发布状态:kubectl rollout status deployment/<deployment-name> -n <namespace>
  • 查看滚动发布历史记录:kubectl rollout history deployment/<deployment-name> -n <namespace>

6 StatefulSet诊断

  • 列出命名空间中的所有 StatefulSet:kubectl get statefulsets -n <namespace>

  • 查看一个 StatefulSet详情:kubectl describe statefulset <statefulset-name> -n <namespace>

7 ConfigMap 和Secret诊断

  • 列出命名空间中的 ConfigMap:kubectl get configmaps -n <namespace>
  • 查看一个ConfigMap详情:kubectl describe configmap <configmap-name> -n <namespace>
  • 列出命名空间中的 Secret:kubectl get secrets -n <namespace>
  • 查看一个Secret详情:kubectl describe secret <secret-name> -n <namespace>

8 命名空间诊断

  • 查看一个命名空间详情:kubectl describe namespace <namespace-name>

9 资源使用情况

  • 检查 pod 的资源使用情况:kubectl top pod <pod-name> -n <namespace>
  • 检查节点资源使用情况:kubectl top nodes

10 网络诊断

  • 显示命名空间中 Pod 的 IP 地址:kubectl get pods -n <namespace> -o custom-columns=POD:metadata.name,IP:status.podIP --no-headers
  • 列出命名空间中的所有网络策略:kubectl get networkpolicies -n <namespace>
  • 查看一个网络策略详情:kubectl describe networkpolicy <network-policy-name> -n <namespace>

11 持久卷 (PV) 和持久卷声明 (PVC) 诊断

  • 列出PV:kubectl get pv
  • 查看一个PV详情:kubectl describe pv <pv-name>
  • 列出命名空间中的 PVC:kubectl get pvc -n <namespace>
  • 查看PVC详情:kubectl describe pvc <pvc-name> -n <namespace>

12 节点诊断

  • 获取特定节点上运行的 Pod 列表:kubectl get pods --field-selector spec.nodeName=<node-name> -n <namespace>

13 资源配额和限制

  • 列出命名空间中的资源配额:kubectl get resourcequotas -n <namespace>
  • 查看一个资源配额详情:kubectl describe resourcequota <resource-quota-name> -n <namespace>

14 自定义资源定义 (CRD) 诊断 

  • 列出命名空间中的自定义资源:kubectl get <custom-resource-name> -n <namespace>

  • 查看自定义资源详情:kubectl describe <custom-resource-name> <custom-resource-instance-name> -n <namespace>

使用这些命令时,请记住将<namespace><pod-name><service-name><deployment-name><statefulset-name><configmap-name><secret-name><namespace-name><pv-name><pvc-name><node-name><network-policy-name><resource-quota-name><custom-resource-name>替换为你的特定值。

<custom-resource-instance-name>这些命令应该可以帮助你诊断 Kubernetes 集群以及在其中运行的应用程序。

15 资源伸缩和自动伸缩

  • Deployment伸缩:kubectl scale deployment <deployment-name> --replicas=<replica-count> -n <namespace>
  • 设置Deployment的自动伸缩:kubectl autoscale deployment <deployment-name> --min=<min-pods> --max=<max-pods> --cpu-percent=<cpu-percent> -n <namespace>
  • 检查水平伸缩器状态:kubectl get hpa -n <namespace>

15 作业和 CronJob 诊断

  • 列出命名空间中的所有作业:kubectl get jobs -n <namespace>
  • 查看一份工作详情:kubectl describe job <job-name> -n <namespace>
  • 列出命名空间中的所有 cron 作业:kubectl get cronjobs -n <namespace>
  • 查看一个 cron 作业详情:kubectl describe cronjob <cronjob-name> -n <namespace>

16 容量诊断

  • 列出按容量排序的持久卷 (PV):kubectl get pv --sort-by=.spec.capacity.storage

  • 查看PV回收策略:kubectl get pv <pv-name> -o=jsonpath='{.spec.persistentVolumeReclaimPolicy}'

  • 列出所有存储类别:kubectl get storageclasses

17 Ingress和服务网格诊断

  • 列出命名空间中的所有Ingress:kubectl get ingress -n <namespace>

  • 查看一个Ingress详情:kubectl describe ingress <ingress-name> -n <namespace>

  • 列出命名空间中的所有 VirtualServices (Istio):kubectl get virtualservices -n <namespace>

  • 查看一个 VirtualService (Istio)详情:kubectl describe virtualservice <virtualservice-name> -n <namespace>

18 Pod 网络故障排除

  • 运行网络诊断 Pod(例如 busybox)进行调试:kubectl run -it --rm --restart=Never --image=busybox net-debug-pod -- /bin/sh

  • 测试从 Pod 到特定端点的连接:kubectl exec -it <pod-name> -n <namespace> -- curl <endpoint-url>

  • 跟踪从一个 Pod 到另一个 Pod 的网络路径:kubectl exec -it <source-pod-name> -n <namespace> -- traceroute <destination-pod-ip>

  • 检查 Pod 的 DNS 解析:kubectl exec -it <pod-name> -n <namespace> -- nslookup <domain-name>

19 配置和资源验证

  • 验证 Kubernetes YAML 文件而不应用它:kubectl apply --dry-run=client -f <yaml-file>

  • 验证 pod 的安全上下文和功能:kubectl auth can-i list pods --as=system:serviceaccount:<namespace>:<serviceaccount-name>

20 RBAC 和安全性

  • 列出命名空间中的角色和角色绑定:kubectl get roles,rolebindings -n <namespace>

  • 查看角色或角色绑定详情:kubectl describe role <role-name> -n <namespace>

21 服务帐户诊断

  • 列出命名空间中的服务帐户:kubectl get serviceaccounts -n <namespace>

  • 查看一个服务帐户详情:kubectl describe serviceaccount <serviceaccount-name> -n <namespace>

22 清空节点和解除封锁

  • 清空节点以进行维护:kubectl drain <node-name> --ignore-daemonsets

  • 解除对节点的封锁:kubectl uncordon <node-name>

23 资源清理

  • 强制删除 pod(不推荐):kubectl delete pod <pod-name> -n <namespace> --grace-period=0 --force

24 Pod 亲和性和反亲和性

  • 列出 pod 的 pod 亲和性规则:kubectl get pod <pod-name> -n <namespace> -o=jsonpath='{.spec.affinity}'

  • 列出 pod 的 pod 反亲和性规则:kubectl get pod <pod-name> -n <namespace> -o=jsonpath='{.spec.affinity.podAntiAffinity}'

25 Pod 安全策略 (PSP)

  • 列出所有 Pod 安全策略(如果启用):kubectl get psp

26 事件

  • 查看最近的集群事件:kubectl get events --sort-by=.metadata.creationTimestamp

  • 按特定命名空间过滤事件:kubectl get events -n <namespace>

27 节点故障排除

  • 检查节点情况:kubectl describe node <node-name> | grep Conditions -A5

  • 列出节点容量和可分配资源:kubectl describe node <node-name> | grep -E "Capacity|Allocatable"

28 临时容器(Kubernetes 1.18+):

  • 运行临时调试容器kubectl debug -it <pod-name> -n <namespace> --image=<debug-image> -- /bin/sh

29 资源指标(需要指标服务器)

  • 获取 Pod 的 CPU 和内存使用情况:kubectl top pod -n <namespace>

30 kuelet诊断

  • 查看节点上的kubelet日志:kubectl logs -n kube-system kubelet-<node-name>

31 使用Telepresence 进行高级调试

  • 使用 Telepresence 调试 pod:telepresence --namespace <namespace> --swap-deployment <pod-name>

32 Kubeconfig 和上下文

  • 列出可用的上下文:kubectl config get-contexts

  • 切换到不同的上下文:kubectl config use-context <context-name>

33 Pod 安全标准(PodSecurity 准入控制器)

  • 列出 PodSecurityPolicy (PSP) 违规行为:kubectl get psp -A | grep -vE 'NAME|REVIEWED'

34 Pod 中断预算 (PDB) 诊断

  • 列出命名空间中的所有 PDB:kubectl get pdb -n <namespace>

  • 查看一个PDB详情:kubectl describe pdb <pdb-name> -n <namespace>

35 资源锁诊断(如果使用资源锁)

  • 列出命名空间中的资源锁:kubectl get resourcelocks -n <namespace>

36 服务端点和 DNS

  • 列出服务的服务端点:kubectl get endpoints <service-name> -n <namespace>

  • 检查 Pod 中的 DNS 配置:kubectl exec -it <pod-name> -n <namespace> -- cat /etc/resolv.conf

37 自定义指标(Prometheus、Grafana)

  • 查询Prometheus指标:用于kubectl port-forward访问Prometheus和Grafana服务来查询自定义指标。

38 Pod 优先级和抢占

  • 列出优先级:kubectl get priorityclasses

39 Pod 开销(Kubernetes 1.18+)

  • 列出 pod 中的开销:kubectl get pod <pod-name> -n <namespace> -o=jsonpath='{.spec.overhead}'

40 存储卷快照诊断(如果使用存储卷快照)

  • 列出存储卷快照:kubectl get volumesnapshot -n <namespace>

  • 查看存储卷快照详情:kubectl describe volumesnapshot <snapshot-name> -n <namespace>

41 资源反序列化诊断

  • 反序列化并打印 Kubernetes 资源:kubectl get <resource-type> <resource-name> -n <namespace> -o=json

42 节点污点

  1. 列出节点污点:kubectl describe node <node-name> | grep Taints

43 更改和验证 Webhook 配置

  1. 列出变异 webhook 配置:kubectl get mutatingwebhookconfigurations

  2. 列出验证 Webhook 配置:kubectl get validatingwebhookconfigurations

44 Pod 网络策略

  • 列出命名空间中的 pod 网络策略:kubectl get networkpolicies -n <namespace>

45 节点条件(Kubernetes 1.17+)

  • 自定义查询输出:kubectl get nodes -o custom-columns=NODE:.metadata.name,READY:.status.conditions[?(@.type=="Ready")].status -l 'node-role.kubernetes.io/worker='

46 审核日志

  • 检索审核日志(如果启用):检查 Kubernetes 审核日志配置以了解审核日志的位置。

47 节点操作系统详细信息

  • 获取节点的操作系统信息:kubectl get node <node-name> -o jsonpath='{.status.nodeInfo.osImage}'

这些命令应该涵盖 Kubernetes 中的各种诊断场景。确保将<namespace><pod-name><deployment-name>等占位符替换为你的集群和用例的实际值。


http://www.niftyadmin.cn/n/5408913.html

相关文章

ubuntu20.04“E: 软件包 vim 没有可安装候选”“/etc/apt/sources.list:7 中被配置了多次”解决方法

问题一&#xff1a;ubuntu20.04安装vim时提示“E: 软件包 vim 没有可安装候选” **解决&#xff1a;**更换下载&#xff0c;比如我原先使用的是清华源&#xff0c;后切换成阿里云源&#xff0c;ubuntu直接在“软件和更新”切换 问题一解决。 问题二&#xff1a;ubuntu20.04提…

【Pytorch】模型部署

文章目录 0. 进行设置1. 获取数据2. FoodVision Mini模型部署实验概要3. 创建 EffNetB2 特征提取器4. 创建 ViT 特征提取器5. 使用训练好模型进行预测并计时6. 比较模型结果、预测时间和大小7. 通过创建 Gradio 演示让 FoodVision Mini 呈现8. 将Gradio demo变成可部署的应用程…

Hadoop 3.1.1 分布式搭建过程

准备工作 通过克隆获得三台虚拟机 准备工作&#xff1a;时间同步、时区调整、JDK1.8环境、配置主机名、关闭防火墙、配置静态IP 无特别说明&#xff0c;三台虚拟机都要完成准备工作 1、时间同步 ntpdate ntp.aliyun.com2、调整时区 timedatectl set-timezone Asia/Shanghai3、…

【prompt五】CoCoOP:Conditional Prompt Learning for Vision-Language Models

motivation 随着像CLIP这样强大的预训练视觉语言模型的兴起,研究如何使这些模型适应下游数据集变得至关重要。最近提出的一种名为上下文优化(CoOp)的方法将提示学习(nlp的最新趋势)的概念引入视觉领域,以适应预训练的视觉语言模型。具体来说,CoOp将提示中的上下文单词转换为…

python+django_vue旅游酒店预订出行订票系统pycharm项目lw

a.由于对管理信息方面的内容了解尚浅且没有足够的经验&#xff0c;因而很难对数据庞大的线上旅行信息管理系统建立完善的数据库。 b.线上旅行信息管理系统拥有很大的信息量&#xff0c;其中包括数据库的前期开发和后期更新&#xff0c;因此对数据库的安全性&#xff0c;一致性和…

零基础学VR全景制作,新手制作流程有哪些?

VR全景技术可以应用于旅游、房地产、教育、娱乐等多个领域&#xff0c;可以为观众提供更加真实、更具沉浸感的体验。可以说&#xff0c;VR全景技术已经逐渐深入到各个领域中&#xff0c;那么对于新手来说&#xff0c;该如何制作VR全景呢&#xff1f; VR全景制作也是需要一定的技…

无法启动报,To install it, you can run: npm install --save @/components/iFrame/index

运行的过程中后台报错 npm install --save /components/iFrame/index&#xff0c;以为是安装三方依赖错误&#xff0c;经过多次重装node_modules依然没有用。 没办法&#xff0c;只能在项目中搜索 components/iFrame/index这个文件。。突然醒悟。。。 有时候&#xff0c;犯迷…

【Unity】使用ScriptableObject存储数据

1.为什么要用ScriptableObject&#xff1f; 在游戏开发中&#xff0c;有大量的配置数据需要存储&#xff0c;这个时候就需要ScriptableObject来存储数据了。 很多人会说我可以用json、xml、txt&#xff0c;excel等等 但是你们有没有想过&#xff0c;假设你使用的是json&#x…