pile·
DB / 데이터·SK플래닛SK플래닛·

실시간 파생 데이터 생성 : Kafka + Spark로 하루를 앞당기다

문제기존 배치 기반 처리는 파생 데이터 생성이 1일 이상 지연되어 실시간 인사이트를 제공할 수 없었다.
접근Router 서비스를 구축해 Kafka Connect로 데이터를 저장하고, Spark Streaming으로 기존 Hive 쿼리를 재사용한 DStream 실시간 처리를 구현했다. 배치 간격 10초, 파티션당 최대 3,000개/배치로 설정했다.
결과배치 처리 지연을 제거하고 Grafana와 Burrow로 실시간 LAG 모니터링 체계를 갖췄다.
SK플래닛
SK플래닛 블로그
원문은 여기서 이어서 읽을 수 있어요
원문 읽기
읽음 (0)

이 글과 비슷한

  1. DB / 데이터·pinterest-engPinterest Engineering·

    Pinterest 차세대 DB 수집 프레임워크의 자동화된 스키마 진화

    Pinterest의 CDC 기반 DB 수집 파이프라인은 MySQL에서 Kafka, Flink, Spark, Iceberg를 거치는 다층 구조다. 스키마 변경이 생기면 모든 계층을 동시에 업데이트해야 해 드리프트, 배포 실패, 데이터 불일치가 반복됐다. Pinterest 엔지니어링 팀은 이를 해결하기 위해 가산적 변경만 자동화하는 스키마 진화 프레임워크를 구축하고, PR 기반 롤아웃과 SLA 기반 일관성 모델을 도입했다.

    #data-pipeline#apache-flink#cdc+2