DB / 데이터·

NC소프트 DANBI·2021년

ETL 성능 향상을 위한 몇 가지 팁들

문제Hive·RDBMS 기반 ETL이 데이터량 증가로 느려져 잡 완료가 지연되고 클러스터 자원이 낭비되는 사례가 누적됐다.

접근HiveQL에서는 조건절 UDF를 기본 함수로 바꿔 파티션 프루닝을 살리고 DISTINCT COUNT를 GROUP BY + COUNT로 분산, JOIN 순서에 STREAMTABLE 힌트를 적용하고 Parquet에서는 와일드카드 대신 필요한 컬럼만 SELECT했으며, RDBMS는 불필요한 인덱스 제거·WHERE 함수 호출 회피·OR을 UNION으로 분할하고, 운영 측면에서는 샘플 데이터 사전 테스트·Airflow Sensor 기반 스케줄링과 용량 계획을 정착시켰다.

결과쿼리 수정만으로도 ETL 잡 실행 시간이 줄고 운영 체계화로 수정 빈도가 감소해 데이터 파이프라인 안정성이 향상됐다.

NC소프트 DANBI 블로그

원문은 여기서 이어서 읽을 수 있어요

읽음 (0)

·takedown 요청

이 글과 비슷한

DB / 데이터·Pinterest Engineering·1주 전
Pinterest 차세대 DB 수집 프레임워크의 자동화된 스키마 진화
Pinterest의 CDC 기반 DB 수집 파이프라인은 MySQL에서 Kafka, Flink, Spark, Iceberg를 거치는 다층 구조다. 스키마 변경이 생기면 모든 계층을 동시에 업데이트해야 해 드리프트, 배포 실패, 데이터 불일치가 반복됐다. Pinterest 엔지니어링 팀은 이를 해결하기 위해 가산적 변경만 자동화하는 스키마 진화 프레임워크를 구축하고, PR 기반 롤아웃과 SLA 기반 일관성 모델을 도입했다.
#data-pipeline#apache-flink#cdc+2
DB / 데이터·여기어때 (GC컴퍼니)·3주 전
Aurora MySQL의 숨겨진 idle close 동작 — HikariCP "Failed to validate connection" 추적기
Aurora MySQL 클러스터에서 HikariCP keepaliveTime(30초) 설정에도 불구하고 주기적으로 "Failed to validate connection" 경고가 발생하며 연결이 먼저 끊어졌다.
#jdbc#hikaricp#connection-pool+2
DB / 데이터·당근 테크블로그·0개월 전
당근 200+개 DB 를 옮기는 ELT 플랫폼, DT Platform 을 만든 이야기
200개 이상 DB의 파이프라인 설정과 실행 코드가 단일 레포에 결합되어 서비스팀이 테이블 추가 시 복잡한 코드베이스를 직접 익혀야 했다.
#data-pipeline#spark#bigquery+2