pile·
DB / 데이터·slack-engSlack Engineering·

From SSH to REST: A Security-Driven Modernization of Slack’s EMR Data Pipelines

문제Slack의 EMR 데이터 파이프라인은 700개 이상 Airflow SSH 작업에 의존해 보안 표면, 키 관리, 장애 복구, 관측성이 모두 취약했다.
접근YARN Distributed Shell, Livy, HiveServer2를 Quarry REST 게이트웨이에 통합하고 Airflow 연산자를 REST 기반 제출 방식으로 단계 이전했다.
결과8개 데이터 리전의 700개 이상 작업을 3분기 동안 무중단 이전했고, SSH 의존성을 제거해 인증·상태 추적·취소·로그 체계를 표준화했다.
slack-eng
Slack Engineering 블로그
원문은 여기서 이어서 읽을 수 있어요
원문 읽기
읽음 (0)

이 글과 비슷한

  1. DB / 데이터·pinterest-engPinterest Engineering·

    Pinterest 차세대 DB 수집 프레임워크의 자동화된 스키마 진화

    Pinterest의 CDC 기반 DB 수집 파이프라인은 MySQL에서 Kafka, Flink, Spark, Iceberg를 거치는 다층 구조다. 스키마 변경이 생기면 모든 계층을 동시에 업데이트해야 해 드리프트, 배포 실패, 데이터 불일치가 반복됐다. Pinterest 엔지니어링 팀은 이를 해결하기 위해 가산적 변경만 자동화하는 스키마 진화 프레임워크를 구축하고, PR 기반 롤아웃과 SLA 기반 일관성 모델을 도입했다.

    #data-pipeline#apache-flink#cdc+2