pile·
DB / 데이터·뱅크샐러드뱅크샐러드·

데이터 분석가가 직접 정의, 배포, 관리하는 뱅크샐러드 데이터 파이프라인

문제데이터 파이프라인 개발이 데이터 엔지니어에게 집중되며 요청·협의·구현·배포가 반복돼 조직 확장이 막혔다.
접근datapipe로 EMR·Spark·Airflow DAG 구성을 추상화했다. 메타데이터와 비즈니스 로직만 작성하면 동작하고, Slack ChatOps 기반으로 분석가가 직접 배포한다. PR별 자동 테스트 서버와 pytest 유닛 테스트, DqCriteria 기반 데이터 품질 검증도 통합했다.
결과비엔지니어 직군의 파이프라인 개발 사례가 연간 600건으로 약 6배 늘었다. 엔지니어는 인프라에, 제품팀은 지표·데이터 제품 운영에 집중하게 됐다.
뱅크샐러드
뱅크샐러드 블로그
원문은 여기서 이어서 읽을 수 있어요
원문 읽기
읽음 (0)

이 글과 비슷한

  1. DB / 데이터·pinterest-engPinterest Engineering·

    Pinterest 차세대 DB 수집 프레임워크의 자동화된 스키마 진화

    Pinterest의 CDC 기반 DB 수집 파이프라인은 MySQL에서 Kafka, Flink, Spark, Iceberg를 거치는 다층 구조다. 스키마 변경이 생기면 모든 계층을 동시에 업데이트해야 해 드리프트, 배포 실패, 데이터 불일치가 반복됐다. Pinterest 엔지니어링 팀은 이를 해결하기 위해 가산적 변경만 자동화하는 스키마 진화 프레임워크를 구축하고, PR 기반 롤아웃과 SLA 기반 일관성 모델을 도입했다.

    #data-pipeline#apache-flink#cdc+2