pile·
인프라 / DevOps·네이버 플레이스naver-place·

Airflow Task failed Alert Mail 폭탄 회피하기

문제네이버 플레이스는 Airflow로 수백 개 ETL 파이프라인을 운영하는데, Yarn 통신 장애처럼 한 원인으로 수십 개 Task가 동시에 실패하면 동일한 알림 메일이 폭탄처럼 쏟아졌다.

접근모든 Task에 `email_on_failure=False`를 프로그래밍 적용하고, `trigger_rule='all_done'`인 Alert Task를 DAG 끝에 두어 통합 메일 1건을 만든다. `dag_run.get_task_instances()`로 실패 Task를 모으고 로그 파일을 본문에 첨부한다.

결과DAG당 1건의 통합 메일로 노이즈가 줄었다. HTML `<details>` 태그로 로그를 접고 펼칠 수 있어, 관리자가 task_id와 log_url로 빠르게 원인을 좁힌다.

네이버 플레이스
네이버 플레이스 블로그
원문은 여기서 이어서 읽을 수 있어요
원문 읽기
읽음 (0)

이 글과 비슷한

  1. 인프라 / DevOps·베스핀글로벌베스핀글로벌·

    엔비디아 쓰던 빅테크들, 왜 직접 ‘AI 칩’ 설계에 뛰어드나?

    문제2026 년 AI 연산의 66% 가 추론에서 발생할 전망. 범용 GPU 는 학습엔 강하지만 추론 환경에서 전력·단가 비효율.

    접근빅테크들이 ASIC(주문형 반도체) 자체 설계로 전환. 구글 TPU(2015), 아마존 트레이니엄+인퍼런시아 분리, MS 하드웨어·소프트웨어 동시 설계, 메타·OpenAI 는 파트너십.

    결과추론 전용 칩 시장 2026 년 500억 달러 전망. 단순 비용 절감을 넘어 자사 서비스 최적화 인프라로 엔비디아 의존도 분산.

    #gpu#asic#ai-chip+2
  2. 인프라 / DevOps·베스핀글로벌베스핀글로벌·

    AI Paradox (1) | LLM 인프라 비용, 1시간 만에 8,500만 원 날라간 이유

    문제AI PoC 월 300만 원이 본 운영 전환 시 3,800만 원까지 폭증. GPU 유휴율 68%, 토큰 폭주로 71분 만에 8,500만 원 손실 사례.

    접근FinOps 3단계: Inform(GPU 활성화율·토큰 소비 가시화) → Optimize(작업 난이도별 LLM 선택으로 최대 80% 절감) → Operate(자동화 스케줄링·토큰 거버넌스).

    결과LLM 인프라 비용 61% 절감, GPU 유휴율 68% → 12%. 콜드 스타트 우려에 갇혀 유휴 GPU 못 끄던 운영 책임 분담 문제를 자동화로 해결.

    #llm#tokenization#gpu+2
  3. 인프라 / DevOps·AWS KoreaAWS Korea·

    뉴빌리티의 Amazon Kinesis Video Streams 기반 원격 관제 확장 사례

    문제자율주행 로봇 300대를 RTSP + 포트포워딩으로 원격 관제하니 신규 사이트마다 20분~수시간 네트워크 설정이 필요. 운영 확장 불가.

    접근Amazon Kinesis Video Streams 의 WebRTC Signaling Channel 로 P2P 연결 구성. roundTripTime, fractionLost 메트릭 + TWCC 기반 비트레이트 조정으로 LTE 가변 환경 대응.

    결과포트포워딩 제거, 외부 이해관계자도 영상 접근 가능, 네트워크 변동에도 안정 품질 유지.

    #iot#aws#webrtc+2