pile·

Kubernetes & EKS 운영 — 오토스케일링·서비스메시·배포

발행

Graceful shutdown·리소스 관리 같은 기초부터 Karpenter 오토스케일링, Istio 서비스메시, GitOps·카나리 배포, 멀티클러스터 고가용성, 비용 절감까지. 쿠버네티스 운영 로드맵.

13
  1. 01
    쏘카쏘카

    Node.js 컨테이너, 왜 깔끔하게 안 죽을까? (feat. Graceful shutdown)

    Node.js 컨테이너가 SIGTERM 을 받았을 때 in-flight 요청을 끝내지 않고 죽으면 사용자에게 5xx 가 보인다.

  2. 02
    아이디어스아이디어스

    Kubernetes Pod 리소스: CPU Limit

    순간 트래픽 급증 시 image 서비스 응답이 지연됐는데, 노드에 여유 CPU가 있는데도 Pod CPU Limit 때문에 활용하지 못했다.

  3. 03
    KT 클라우드KT 클라우드

    [기술 분석] kubernetes Ingress API의 중단. 그 뒤를 잇는 Gateway API 파헤치기

    Kubernetes 가 Ingress NGINX 기술지원 중단을 발표했고 기존 Ingress 는 복잡한 라우팅 구현 시 "Annotation 지옥" 한계가 컸다.

  4. 04
    KT 클라우드KT 클라우드

    [분석] Kubernetes v1.35 Timbernetes: 6년 만의 GA, AI 스케줄링, 기술 부채 개선

    쿠버네티스는 AI/ML 워크로드 수용과 운영 유연성, 누적된 기술 부채 정리를 동시에 풀어야 했다.

  5. 05
    당근당근 테크블로그

    당근의 Job 워크로드를 위한 EKS 노드 그룹 오토스케일링 여정

    당근의 배치 Job 워크로드는 트래픽이 들쭉날쭉하다. 정적으로 노드를 크게 잡으면 유휴 비용이, 작게 잡으면 Job 시작 지연이 SLO 를 깬다.

  6. 06
    saramin사람인 기술블로그

    Karpenter 파일럿

    기존 ASG 기반 Cluster Autoscaler가 인스턴스 타입 제한·Reserved Instance 부족·노드 NotReady·느린 스케일 감지를 해결 못 해 프로덕션에서 수동 개입 빈번

  7. 07
    부스트브라더스부스트브라더스

    AWS Node Auto Scaler Karpenter 도입기

    기존 Cluster AutoScaler는 스파크성 트래픽에 대응하는 노드 프로비저닝이 느리고 인스턴스 타입 최적화가 어려워 비용 효율성이 낮았다.

  8. 08
    channel-talk채널톡

    Istio 1편: 왜 Istio Ambient mode인가?

    마이크로서비스 규모 확대로 사이드카 기반 서비스 메시의 메모리·CPU 오버헤드와 운영 부담이 커졌다.

  9. 09
    channel-talk채널톡

    Istio 2편: Envoy config로 해부하는 Ambient mode

    Istio Ambient mode 의 HBONE 터널링과 ztunnel 트래픽 리다이렉션이 실제로 어떻게 구현되는지 불명확했다.

  10. 10
    부스트브라더스부스트브라더스

    Gitops를 활용한 AWS EKS Blue-Green 업데이트 적용기

    Kubernetes 1.22 지원 종료를 앞두고 1.25로 업그레이드해야 하지만, 인플레이스 업데이트는 롤백이 불가능하고 3단계 마이너 버전 순차 업그레이드가 필요하다.

  11. 11
    딜라이트룸딜라이트룸

    배포가 두렵지 않은 팀 만들기: Argo Rollouts로 카나리 배포 자동화하기

    롤링 업데이트에서 신규 버전이 1~2분 안에 전체 트래픽을 받아 장애 발생 시 빠르게 확산됐다. SLO 99.9%(월 43분 허용) 유지가 어려웠다.

  12. 12
    카카오페이카카오페이

    99.999%를 향한 집착: 멀티 & 하이브리드 클러스터로 살아남기

    증권업은 99.999% 가용성이 사실상 의무다. 단일 클라우드·단일 클러스터 의존은 장중 거래량 급변·플랫폼 장애에 취약하다.

  13. 13
    SK플래닛SK플래닛

    Spot by NetApp을 활용한 AWS EKS 운영 비용 절감 사례

    챗봇 서비스를 온프레미스에서 AWS EKS로 전환 후 예상보다 높은 운영 비용이 발생했고, Spot 인스턴스는 인스턴스 회수 위험으로 안정성이 필요한 서비스에 적용하기 어렵다.