pile·
인프라 / DevOps·네이버 플레이스네이버 플레이스·

Airflow Task failed Alert Mail 폭탄 회피하기

문제네이버 플레이스는 Airflow로 수백 개 ETL 파이프라인을 운영하는데, Yarn 통신 장애처럼 한 원인으로 수십 개 Task가 동시에 실패하면 동일한 알림 메일이 폭탄처럼 쏟아졌다.
접근모든 Task에 `email_on_failure=False`를 프로그래밍 적용하고, `trigger_rule='all_done'`인 Alert Task를 DAG 끝에 두어 통합 메일 1건을 만든다. `dag_run.get_task_instances()`로 실패 Task를 모으고 로그 파일을 본문에 첨부한다.
결과DAG당 1건의 통합 메일로 노이즈가 줄었다. HTML `<details>` 태그로 로그를 접고 펼칠 수 있어, 관리자가 task_id와 log_url로 빠르게 원인을 좁힌다.
네이버 플레이스
네이버 플레이스 블로그
원문은 여기서 이어서 읽을 수 있어요
원문 읽기
읽음 (0)

이 글과 비슷한

  1. 인프라 / DevOps·vercel-blogVercel Blog·

    Vercel CLI 드라이런 배포로 실제 배포 전 구성 미리 확인하기

    Vercel CLI v54.17.2부터 vercel deploy --dry 명령으로 실제 파일 업로드 없이 배포 구성을 미리 검사할 수 있다. 프레임워크 감지 결과, 포함/제외 파일 목록, 디렉터리 크기 분포, 콘텐츠 해시까지 사전에 확인하고 나서 배포를 결정할 수 있어 의도치 않은 배포 실패를 예방한다.

    #deployment#ci-cd#vercel-cli+1