pile·
최신
  1. 인프라 / DevOps·discord-blogDiscord Blog·

    Discord API의 기능별 비용 귀속 시스템

    Discord가 1,700개 이상의 API 엔드포인트와 700개 백그라운드 태스크를 단일 Python 코드베이스로 수백 개 Kubernetes 배포에서 운영하면서 기능별 인프라 비용을 귀속시키는 시스템을 구축했다. 클라우드 제공사가 Kubernetes 배포 단위까지만 비용을 나눠주기 때문에 메시징·스트리밍 등 개별 기능의 실제 비용을 파악하기 어려웠고, CPU 시간 직접 샘플링으로 이 문제를 해결했다.

    #kubernetes#cost-optimization#observability+2
  2. 인프라 / DevOps·LINE EngineeringLINE Engineering·

    Flava DBaaS 딥다이브: 아키텍처부터 마이그레이션, 그리고 미래까지

    LY Corporation이 구 LINE의 Verda와 구 Yahoo Japan의 YNW를 통합하며 구축한 차세대 클라우드 플랫폼 Flava의 DBaaS 아키텍처를 상세히 설명한다. Kubernetes 오퍼레이터 패턴으로 DBA 도메인 지식을 코드화했고, 마이그레이션 전략부터 AI 기반 DBA-as-a-Service까지 미래 로드맵을 함께 다룬다.

    #kubernetes#data-migration#dbaas+2
  3. 인프라 / DevOps·토스 SLASH토스 SLASH·

    Spark Connect on Kubernetes #1: 견고한 Spark Connect 만들기

    토스증권 Data Infra팀이 Spark Connect를 Kubernetes 위에서 멀티테넌트 서비스로 운영하며 맞닥뜨린 구조적 문제 3가지(Driver SPOF, 리소스 경합, 고정 스케일)와 그 해결책을 다룬다. 단일 SparkContext를 공유하는 구조에서 한 사용자의 OOM 쿼리가 전체 세션을 종료하는 문제를, Executor 실패 카운터 재설계와 멀티 Replica 아키텍처로 극복했다.

    #kubernetes#distributed-systems#apache-spark+2
  4. 인프라 / DevOps·LG U+LG U+·

    종료했는데 왜 502·504가 날까? K8s 무중단 배포를 위한 팁

    Amazon EKS 환경에서 무중단 배포(Rolling Update/Blue-Green)를 적용했음에도 간헐적으로 502 Bad Gateway·504 Gateway Timeout이 발생하는 근본 원인과 해결책을 다룬다. ALB·K8s·Istio·Argo Rollouts의 종료 시퀀스가 어긋나는 타이밍 문제가 핵심이며, terminationGracePeriodSeconds·preStop hook·ALB deregistration_delay 세 축을 정렬해 해결한다.

    #kubernetes#graceful-shutdown#istio+2
  5. AI / ML·spotify-engSpotify Engineering·

    코딩은 더 이상 제약이 아니다: Spotify에서 팀과 AI 에이전트까지 개발자 경험 확장하기

    Spotify가 AI 코딩 도구를 조직 전반에 확산하며 얻은 결론은 "코딩은 더 이상 병목이 아니고, 이제 무엇을 만들지 결정하는 일이 새 병목"이라는 것이다. 프로덕션 코드베이스가 엔지니어 수보다 7배 빠르게 커지며 폭증한 유지보수 부담을, 배경 코딩 에이전트 Honk와 자동화 파이프라인으로 흡수한 과정을 다룬다.

    #kubernetes#developer-experience#claude+2