pile·
DB / 데이터·NC소프트 DANBINC소프트 DANBI·

ETL 성능 향상을 위한 몇 가지 팁들

문제Hive·RDBMS 기반 ETL이 데이터량 증가로 느려져 잡 완료가 지연되고 클러스터 자원이 낭비되는 사례가 누적됐다.
접근HiveQL에서는 조건절 UDF를 기본 함수로 바꿔 파티션 프루닝을 살리고 DISTINCT COUNT를 GROUP BY + COUNT로 분산, JOIN 순서에 STREAMTABLE 힌트를 적용하고 Parquet에서는 와일드카드 대신 필요한 컬럼만 SELECT했으며, RDBMS는 불필요한 인덱스 제거·WHERE 함수 호출 회피·OR을 UNION으로 분할하고, 운영 측면에서는 샘플 데이터 사전 테스트·Airflow Sensor 기반 스케줄링과 용량 계획을 정착시켰다.
결과쿼리 수정만으로도 ETL 잡 실행 시간이 줄고 운영 체계화로 수정 빈도가 감소해 데이터 파이프라인 안정성이 향상됐다.
NC소프트 DANBI
NC소프트 DANBI 블로그
원문은 여기서 이어서 읽을 수 있어요
원문 읽기
읽음 (0)

이 글과 비슷한

  1. DB / 데이터·pinterest-engPinterest Engineering·

    Pinterest 차세대 DB 수집 프레임워크의 자동화된 스키마 진화

    Pinterest의 CDC 기반 DB 수집 파이프라인은 MySQL에서 Kafka, Flink, Spark, Iceberg를 거치는 다층 구조다. 스키마 변경이 생기면 모든 계층을 동시에 업데이트해야 해 드리프트, 배포 실패, 데이터 불일치가 반복됐다. Pinterest 엔지니어링 팀은 이를 해결하기 위해 가산적 변경만 자동화하는 스키마 진화 프레임워크를 구축하고, PR 기반 롤아웃과 SLA 기반 일관성 모델을 도입했다.

    #data-pipeline#apache-flink#cdc+2