

인증서 갱신 기록

k8s cluster 생성

최종적으로는 성공한 스펙은 아래와 같다

  • control-plane 1 : arm64 raspberry-pi 4 4gb
  • worker-node 3 : arm64x2 (raspberry-pi 4 8gb + raspberry-pi 4 4gb) + x86_64x1
  • cni : calico
  • os: ubuntu 22.04.1 lts jammy
NAMESPACE     NAME                                      READY   STATUS    RESTARTS          AGE
kube-system   calico-kube-controllers-7bdbfc669-xm6ps   1/1     Running   187 (3h29m ago)   36h
kube-system   calico-node-44zs8                         1/1     Running   0                 43m
kube-system   calico-node-fxzwn                         1/1     Running   82 (4h ago)       36h
kube-system   calico-node-v4d8w                         1/1     Running   0                 19m
kube-system   calico-node-w57c2                         1/1     Running   0                 34m
kube-system   coredns-787d4945fb-ngrmj                  1/1     Running   110 (3h29m ago)   2d12h
kube-system   coredns-787d4945fb-p4mgs                  1/1     Running   124 (3h26m ago)   2d12h
kube-system   etcd-pi0                                  1/1     Running   787 (56m ago)     2d13h
kube-system   kube-apiserver-pi0                        1/1     Running   765 (55m ago)     2d13h
kube-system   kube-controller-manager-pi0               1/1     Running   756 (52m ago)     2d13h
kube-system   kube-proxy-7mgj9                          1/1     Running   0                 43m
kube-system   kube-proxy-knl9w                          1/1     Running   610 (55m ago)     2d13h
kube-system   kube-proxy-p7fhv                          1/1     Running   0                 34m
kube-system   kube-proxy-qjdrl                          1/1     Running   8 (24m ago)       42m
kube-system   kube-scheduler-pi0                        1/1     Running   792 (52m ago)     2d13h

재시작을 보면 알겠지만 엄청나다 kube-* pods 들과 kubelet 이 계속 내려갔는데 /etc/containerd/config.toml 이 직접적인 영향을 미쳤다. kubelet 은 containerd 설정이 완전히 마쳐지면 kubeadm 통해서 실행해야한다. systemctl status kubelet.service 의 보이는 환경변수들이 없는 경우 ufw 는 pi2 에 enable 되어있으나 정상적으로 동작중이다. 모니터링을 해당 것을 enable 처리 유지중이다 - kubespray 에서는 disable 권장

  • TODO: etcd 다중화
  • TODO: 외부 접속

생성 후 조인

  • master node 에서 토큰 발급한다
kubeadm token create --print-join-command
  • join 하고자 하는 node 에서 붙여 넣는다
  • worker node 로 조인
sudo kubeadm join --token [token] --discovery-token-ca-cert-hash [sha256]
  • master node 로 조인
sudo kubeadm join --token [token] --discovery-token-ca-cert-hash [sha256] --control-plane

아래와 같은 에러가 발생한다 ####unable to add a new control plane instance to a cluster that doesn't have a stable controlPlaneEndpoint address

error execution phase preflight:
One or more conditions for hosting a new control plane instance is not satisfied.

unable to add a new control plane instance to a cluster that doesn't have a stable controlPlaneEndpoint address

Please ensure that:
* The cluster has a stable controlPlaneEndpoint address.
* The certificates that must be shared among control plane instances are provided.

To see the stack trace of this error execute with --v=5 or higher
pi@pi0:~$ sudo kubeadm join --token 8yau5m.x2sn6km9bbzszspa --discovery-token-ca-cert-hash sha256:68d77ed663014c8ee6c8b5fabff16aed05113eb821cc3c745cd0bb4bbff8daeb --control-plane --apiserver-advertise-address=
[preflight] Running pre-flight checks
[preflight] Reading configuration from the cluster...
[preflight] FYI: You can look at this config file with 'kubectl -n kube-system get cm kubeadm-config -o yaml'
error execution phase preflight:
One or more conditions for hosting a new control plane instance is not satisfied.

unable to add a new control plane instance to a cluster that doesn't have a stable controlPlaneEndpoint address

Please ensure that:
* The cluster has a stable controlPlaneEndpoint address.
* The certificates that must be shared among control plane instances are provided.

To see the stack trace of this error execute with --v=5 or higher

[diary] diary:2025-01-31

# 에러 메시지
[ERROR FileContent--proc-sys-net-ipv4-ip_forward]: /proc/sys/net/ipv4/ip_forward contents are not set to 1
# 해결
echo "net.ipv4.ip_forward=1" | sudo tee -a /etc/sysctl.conf
sudo sysctl -p
# 확인
cat /proc/sys/net/ipv4/ip_forward # 결과 1
- 이외 wsl 이기 때문에 포트 문제가있을 것 같아서 windows 에서 방화벽 내림
  • 비 상시 node 라면 taint 설정

amd64 설치

  • 2023-01-14
  1. ubuntu 22.04.5 amd64 설치하면서 upgrade + openssh 로 설치
# password 없는 접근을 위해 [ssh-copy-id](ssh-copy-id) 를 통한 key 복사 
ssh-copy-id -i ~/.ssh/[key].pub [server] 

sudo curl -fsSLo /usr/share/keyrings/kubernetes-archive-keyring.gpg https://packages.cloud.google.com/apt/doc/apt-key.gpg
echo "deb [signed-by=/usr/share/keyrings/kubernetes-archive-keyring.gpg] https://apt.kubernetes.io/ kubernetes-xenial main" | sudo tee /etc/apt/sources.list.d/kubernetes.list
sudo apt update
sudo apt install -y apt-transport-https ca-certificates curl
sudo apt install -y kubelet kubeadm kubectl
sudo apt-mark hold kubelet kubeadm kubectl

# off swap
# +2023-01-24 TODO: [sed](sed) 는 부팅시 스왑 파티션 마운트를 막으려는 것 같지만 현재 맞지 않는 것으로 보임 아래 swap 을 처리해야 할 것으로 보임
sudo sed -i '/ swap / s/^\(.*\)$/#\1/g' /etc/fstab
sudo swapoff -a

# containerd
curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo apt-key add -
sudo add-apt-repository "deb [arch=amd64] https://download.docker.com/linux/ubuntu $(lsb_release -cs) stable"
sudo sed -i 's/SystemdCgroup \= false/SystemdCgroup \= true/g' /etc/containerd/config.toml

sudo sysctl --system
sudo systemctl restart containerd

cat <<EOF | sudo tee /etc/modules-load.d/containerd.conf

# lsmod 경우가 없는 경우 modprobe
lsmod | grep overlay
lsmod | grep br_netfilter
sudo modprobe overlay
sudo modprobe br_netfilter

cat <<EOF | sudo tee /etc/sysctl.d/99-kubernetes-cri.conf
net.bridge.bridge-nf-call-iptables  = 1
net.ipv4.ip_forward                 = 1
net.bridge.bridge-nf-call-ip6tables = 1

sudo sysctl --system
sudo systemctl restart containerd

sudo kubeadm config images pull
sudo kubeadm init --pod-network-cidr= 

# cni
# + https://projectcalico.docs.tigera.io/getting-started/kubernetes/helm
helm repo add projectcalico https://projectcalico.docs.tigera.io/charts
kubectl create namespace tigera-operator
helm install calico projectcalico/tigera-operator --version v3.24.5 --namespace tigera-operator
watch kubectl get pods -n calico-system

kubectl edit ippools.crd.projectcalico.org default-ipv4-ippool`
# ipipMode 값을 Always -> CrossSubnet 으로 변경

k create ns traefik
helm install traefik traefik/traefik -n traefik

swapoff 는 아래 명령어를 통해서 확인 가능하며 sudo swapoff -a 를 하면 리스트에 보이지 않는 것으로 확인이 가능하다

  • cat /etc/swaps
  • free -h
  • blkid
$ cat /proc/swaps
Filename                                Type            Size          Used             Priority
/swap.img                               file            8388604       0-2

taint 를 제거해서 스케쥴 가능하게 만들면 traefik 파드가 뜨는데 성공한다

  - effect: NoSchedule
    key: node-role.kubernetes.io/control-plane

이후에는 쉘에 나오는 내용따라치고 KUBECONFIG 를 설정하면 사용이 가능하다. ingress 를 설정해서 사용을 시작하면된다.


pi@pi0:~$ kubectl get pods

The connection to the server [ip]:6443 was refused - did you specify the right host or port?

kubeadm init 이후에 6443 refused 가 나오는 경우

nc -v [ip] 6443

결과가 없는 것이 확인 되면 서비스를 재시작한다

sudo systemctl restart kubelet.service

kubelet 이 계속 죽는다면 containerd 를 의심해야한다. containerd 가 모두 셋업되면 kubelet 을 restart 하는게 아닌 kubeadm init 을 해줘야한다

swapoff 를 안한 경우 문제가 될 수 있으니 참조한다 + raspberry-pi

sudo -i
sudo swapoff -a
  • /etc/containerd/config.toml 에서 systemd_cgroup = true 처리후 재시작 안되는 것으로 보임 -> 해당 내용이 틀렸고 systemd_cgroup 이 아닌 SystemdCgroup 을 true 처리해야한다. 22.04 기준이다.

pi@pi1:~$ sudo kubeadm join [ip]:6443 --token [token]
[preflight] Running pre-flight checks
[preflight] Reading configuration from the cluster...
[preflight] FYI: You can look at this config file with 'kubectl -n kube-system get cm kubeadm-config -o yaml'
[kubelet-start] Writing kubelet configuration to file "/var/lib/kubelet/config.yaml"
[kubelet-start] Writing kubelet environment file with flags to file "/var/lib/kubelet/kubeadm-flags.env"
[kubelet-start] Starting the kubelet
[kubelet-start] Waiting for the kubelet to perform the TLS Bootstrap...

This node has joined the cluster:
* Certificate signing request was sent to apiserver and a response was received.
* The Kubelet was informed of the new secure connection details.

Run 'kubectl get nodes' on the control-plane to see this node join the cluster.

조인 후에 node 가 Not ready 상태

$ systemctl status kubelet
● kubelet.service - kubelet: The Kubernetes Node Agent
     Loaded: loaded (/lib/systemd/system/kubelet.service; enabled; vendor preset: enabled)
    Drop-In: /etc/systemd/system/kubelet.service.d
     Active: activating (auto-restart) (Result: exit-code) since Sat 2022-12-31 04:31:33 UTC; 4s ago
       Docs: https://kubernetes.io/docs/home/
    Process: 4202 ExecStart=/usr/bin/kubelet $KUBELET_KUBECONFIG_ARGS $KUBELET_CONFIG_ARGS $KUBELET_KUBEADM_ARGS $KUBELET_EXTRA_ARGS (code=exited, status=1/FAILURE)
   Main PID: 4202 (code=exited, status=1/FAILURE)
        CPU: 102ms
$ sudo kubeadm init --pod-network-cidr= --v=5
[preflight] Some fatal errors occurred:
        [ERROR CRI]: container runtime is not running: output: E1231 04:50:58.690702    9033 remote_runtime.go:948] "Status from runtime service failed" err="rpc error: code = Unimplemented desc = unknown service runtime.v1alpha2.RuntimeService"
time="2022-12-31T04:50:58Z" level=fatal msg="getting status of runtime: rpc error: code = Unimplemented desc = unknown service runtime.v1alpha2.RuntimeService"
, error: exit status 1
containerd config default | sudo tee /etc/containerd/config.toml
sudo sed -i 's/SystemdCgroup \= false/SystemdCgroup \= true/g' /etc/containerd/config.toml
sudo systemctl restart containerd
sudo sysctl --system

control-plane not ready

$ kgno
pi0    NotReady   control-plane   12m   v1.26.0   <none>        Ubuntu 22.04.1 LTS   5.15.0-1012-raspi   containerd://1.6.14

cni 미 설치로 보이고 flannel 설치 후 해결되었다.

coredns, kube-proxy, kube-scheduler pending

NAME                          READY   STATUS              RESTARTS         AGE
coredns-787d4945fb-87r4v      0/1     ContainerCreating   0                14m
coredns-787d4945fb-dmkxr      0/1     ContainerCreating   0                14m
etcd-pi0                      1/1     Running             82 (3m19s ago)   16m
kube-apiserver-pi0            1/1     Running             74 (5m53s ago)   15m
kube-controller-manager-pi0   1/1     Running             86 (6m24s ago)   15m
kube-proxy-knl9w              0/1     CrashLoopBackOff    8 (29s ago)      14m
kube-scheduler-pi0            0/1     CrashLoopBackOff    92 (24s ago)     16m

Pod sandbox changed, it will be killed and re-created.

  • flannel 설치 이후 reboot, 그리고 kubelet 이 뜨지 않아서 강제 재시작을 함

Unable to connect to the server: x509: certificate is valid for kubernetes, kubernetes.default, kubernetes.default.svc, kubernetes.default.svc.cluster.local, [local master node name], not [external.cluster.domain]
sudo rm /etc/kubernetes/pki/apiserver.*
kubeadm init phase certs all --apiserver-advertise-address= --apiserver-cert-extra-sans=[master node ip,domain name]

master node internal ip, 그리고 외부에서 접속하고자하는 도메인 명을 , 를 통해 함께 기재해야지 내부 외부 모두에서 사용이 가능

kubectl get configmap kubeadm-config -n kube-system
  • 해당 내용에 따르면 내용과 별 관련이 없다 해당 내용은 저장을 위한 것인지 아니면 혹시 renew 단계에서 에러를 일으키는 것인지 renew 로 테스트가 필요하다


재부팅 후에는 kubectl 을 통해서 접근이 되지 않는다.

systemctl status kubelet

을 보면 active 상태가 아닌 것을 확인할 수 있다
단순히 아래 커맨드로 복구가 가능하다

sudo sysctl --system
  • 2023-02-02 update 복구가 되지 않았고 kubeadm init 을 다시 해보았으나 swap 파티션을 이유로 뜨지 않았다 swap 파티션을 내리고 init 을 해도 되었을 것으로 생각되나 swap 파티션이 부팅시 뜨지 않게 한 후 reboot 을 하면 kubelet 이 정상적으로 부팅시에 시작된다 다만 영구적 설정이 되지 않는 경우에는 해당 커맨드를 재 실행해줘야한다

예를 들어 /etc/fstab 에 swap mount 가 있어서 재부팅마다 swap 이 살아난다면 아래와 같이 처리해야한다

$ cat /proc/swaps
# 결과가 있는 경우
$ sudo swapoff -a
  • DONE: 2023-02-02 자동화
    • /etc/fstab 을 수정해서 swap 파티션이 뜨지 않도록 설정하면 리붓후 알아서 kubelet 이 뜬 것을 확인할 수 있다.