pile·
DB / 데이터·데브시스터즈데브시스터즈·

쿠키런: 킹덤 길드 업데이트 이후 서비스 이슈 되돌아보기

문제쿠키런 킹덤 길드 업데이트 직후 CockroachDB 특정 Range에 트래픽이 몰리는 Hot Range가 발생해 일부 노드 CPU가 100%까지 치솟았다.
접근Primary Key 포맷 변경과 사전 split 부재가 원인임을 분석하고, 로그인만 차단하는 무중단 대기열과 테이블 단위 백업, 명시적 Range split, 문제 노드 격리를 순차 적용했다.
결과서비스를 정상화하고 분산 DB에서 PK 설계와 신규 테이블 초기 분산 전략이 필수라는 교훈을 정리했다.
데브시스터즈
데브시스터즈 블로그
원문은 여기서 이어서 읽을 수 있어요
원문 읽기
읽음 (0)

이 글과 비슷한

  1. DB / 데이터·pinterest-engPinterest Engineering·

    Pinterest 차세대 DB 수집 프레임워크의 자동화된 스키마 진화

    Pinterest의 CDC 기반 DB 수집 파이프라인은 MySQL에서 Kafka, Flink, Spark, Iceberg를 거치는 다층 구조다. 스키마 변경이 생기면 모든 계층을 동시에 업데이트해야 해 드리프트, 배포 실패, 데이터 불일치가 반복됐다. Pinterest 엔지니어링 팀은 이를 해결하기 위해 가산적 변경만 자동화하는 스키마 진화 프레임워크를 구축하고, PR 기반 롤아웃과 SLA 기반 일관성 모델을 도입했다.

    #data-pipeline#apache-flink#cdc+2