Kelos - 쿠버네티스 네이티브 자율 코딩 에이전트 프레임워크
네이버 ENGINEERING DAY 2026 발표. AI 코딩 에이전트와 그 실행 환경을 API로 추상화하고 관리할 수 있는 오픈소스 프레임워크 Kelos를 소개한다. 쿠버네티스 네이티브 설계로 코딩 에이전트의 자동화와 오케스트레이션을 지원한다.
네이버 ENGINEERING DAY 2026 발표. AI 코딩 에이전트와 그 실행 환경을 API로 추상화하고 관리할 수 있는 오픈소스 프레임워크 Kelos를 소개한다. 쿠버네티스 네이티브 설계로 코딩 에이전트의 자동화와 오케스트레이션을 지원한다.
LY Corporation SRE1팀이 여러 팀에 산재한 인프라 관리 방식을 OpenTofu(Terraform 오픈소스 포크)와 Terragrunt 기반 IaC로 통합한 전 과정을 다룬다. 300여 대 VM, 160개 LB, 350개 DNS 레코드를 포함한 약 1,500개 리소스를 코드화하고, AI 에이전트와 MCP를 결합해 Slack 자연어 요청만으로 인프라 변경이 가능한 ChatOps 파이프라인까지 구현했다.
토스증권 Data Infra팀이 Spark Connect를 Kubernetes 위에서 멀티테넌트 서비스로 운영하며 맞닥뜨린 구조적 문제 3가지(Driver SPOF, 리소스 경합, 고정 스케일)와 그 해결책을 다룬다. 단일 SparkContext를 공유하는 구조에서 한 사용자의 OOM 쿼리가 전체 세션을 종료하는 문제를, Executor 실패 카운터 재설계와 멀티 Replica 아키텍처로 극복했다.
Amazon EKS 환경에서 무중단 배포(Rolling Update/Blue-Green)를 적용했음에도 간헐적으로 502 Bad Gateway·504 Gateway Timeout이 발생하는 근본 원인과 해결책을 다룬다. ALB·K8s·Istio·Argo Rollouts의 종료 시퀀스가 어긋나는 타이밍 문제가 핵심이며, terminationGracePeriodSeconds·preStop hook·ALB deregistration_delay 세 축을 정렬해 해결한다.
Spotify가 AI 코딩 도구를 조직 전반에 확산하며 얻은 결론은 "코딩은 더 이상 병목이 아니고, 이제 무엇을 만들지 결정하는 일이 새 병목"이라는 것이다. 프로덕션 코드베이스가 엔지니어 수보다 7배 빠르게 커지며 폭증한 유지보수 부담을, 배경 코딩 에이전트 Honk와 자동화 파이프라인으로 흡수한 과정을 다룬다.
광고 플랫폼의 대규모 데이터 처리를 YARN 클러스터로 운영하면 자원 활용도와 격리에서 한계가 온다.
FastAPI 기반 문서 전처리 시스템이 트래픽 증가로 리소스 경합·타임아웃·OOM 을 겪는다.
Node.js 컨테이너가 SIGTERM 을 받았을 때 in-flight 요청을 끝내지 않고 죽으면 사용자에게 5xx 가 보인다.
EKS Blue/Green 운영에서 AWS Route 53 가중치·다중값 응답 라우팅은 DNS 전파 1~5분 + 클라이언트 캐시로 즉각 전환이 어려웠다.
MADUP의 Prism은 K8s 환경에서 마이크로서비스가 비동기 메시지로 통신하는데, 처리 시간이 1~30분으로 들쭉날쭉하고 컨슈머 오토스케일·at-least-once 전달까지 동시에 만족시켜야 했다.
카카오페이 Kubernetes 환경에서 Pod이 실제 사용량(CPU 0.5 core 미만 80%, Memory 1 Gi 미만 20%)보다 훨씬 큰 자원을 요청해 비용 낭비와 신규 서비스 이관 시 자원 부족이 발생했다.
뱅크샐러드 웹은 마이크로서비스 gRPC 호출마다 HTTP 클라이언트를 수작업으로 작성했고 외부망 경유로 IPS 부하와 200ms 수준 지연이 발생했다.
카카오페이가 개발 지원이 중단된 외부 업체의 레거시 시스템과 연동하면서 망 분리, 설계도 없는 API, 물리서버와 클라우드의 환경 차이, SNI 등의 난관에 부딪혔다.