Kubernetes & EKS 운영 — 오토스케일링·서비스메시·배포
발행Graceful shutdown·리소스 관리 같은 기초부터 Karpenter 오토스케일링, Istio 서비스메시, GitOps·카나리 배포, 멀티클러스터 고가용성, 비용 절감까지. 쿠버네티스 운영 로드맵.
- 글
- 13
- 01
쏘카Node.js 컨테이너, 왜 깔끔하게 안 죽을까? (feat. Graceful shutdown)
Node.js 컨테이너가 SIGTERM 을 받았을 때 in-flight 요청을 끝내지 않고 죽으면 사용자에게 5xx 가 보인다.
- 02
아이디어스Kubernetes Pod 리소스: CPU Limit
순간 트래픽 급증 시 image 서비스 응답이 지연됐는데, 노드에 여유 CPU가 있는데도 Pod CPU Limit 때문에 활용하지 못했다.
- 03
KT 클라우드[기술 분석] kubernetes Ingress API의 중단. 그 뒤를 잇는 Gateway API 파헤치기
Kubernetes 가 Ingress NGINX 기술지원 중단을 발표했고 기존 Ingress 는 복잡한 라우팅 구현 시 "Annotation 지옥" 한계가 컸다.
- 04
KT 클라우드[분석] Kubernetes v1.35 Timbernetes: 6년 만의 GA, AI 스케줄링, 기술 부채 개선
쿠버네티스는 AI/ML 워크로드 수용과 운영 유연성, 누적된 기술 부채 정리를 동시에 풀어야 했다.
- 05
당근 테크블로그당근의 Job 워크로드를 위한 EKS 노드 그룹 오토스케일링 여정
당근의 배치 Job 워크로드는 트래픽이 들쭉날쭉하다. 정적으로 노드를 크게 잡으면 유휴 비용이, 작게 잡으면 Job 시작 지연이 SLO 를 깬다.
- 06
사람인 기술블로그Karpenter 파일럿
기존 ASG 기반 Cluster Autoscaler가 인스턴스 타입 제한·Reserved Instance 부족·노드 NotReady·느린 스케일 감지를 해결 못 해 프로덕션에서 수동 개입 빈번
- 07
부스트브라더스AWS Node Auto Scaler Karpenter 도입기
기존 Cluster AutoScaler는 스파크성 트래픽에 대응하는 노드 프로비저닝이 느리고 인스턴스 타입 최적화가 어려워 비용 효율성이 낮았다.
- 08
- 09
채널톡Istio 2편: Envoy config로 해부하는 Ambient mode
Istio Ambient mode 의 HBONE 터널링과 ztunnel 트래픽 리다이렉션이 실제로 어떻게 구현되는지 불명확했다.
- 10
부스트브라더스Gitops를 활용한 AWS EKS Blue-Green 업데이트 적용기
Kubernetes 1.22 지원 종료를 앞두고 1.25로 업그레이드해야 하지만, 인플레이스 업데이트는 롤백이 불가능하고 3단계 마이너 버전 순차 업그레이드가 필요하다.
- 11
딜라이트룸배포가 두렵지 않은 팀 만들기: Argo Rollouts로 카나리 배포 자동화하기
롤링 업데이트에서 신규 버전이 1~2분 안에 전체 트래픽을 받아 장애 발생 시 빠르게 확산됐다. SLO 99.9%(월 43분 허용) 유지가 어려웠다.
- 12
카카오페이99.999%를 향한 집착: 멀티 & 하이브리드 클러스터로 살아남기
증권업은 99.999% 가용성이 사실상 의무다. 단일 클라우드·단일 클러스터 의존은 장중 거래량 급변·플랫폼 장애에 취약하다.
- 13
SK플래닛Spot by NetApp을 활용한 AWS EKS 운영 비용 절감 사례
챗봇 서비스를 온프레미스에서 AWS EKS로 전환 후 예상보다 높은 운영 비용이 발생했고, Spot 인스턴스는 인스턴스 회수 위험으로 안정성이 필요한 서비스에 적용하기 어렵다.