pile·
인프라 / DevOps·우아한형제들우아한형제들·

장애 대응의 성패를 가르는 First Action: 우아한형제들의 장애 관리 라이프사이클

문제장애 인지는 빠르지만 초동 조치가 핫픽스인지 롤백인지에 따라 고객 영향 시간이 갈리고, First Action 이 핫픽스였던 장애가 롤백 케이스보다 거의 두 배 더 오래 지속됐다.
접근Potential-Incident 1단계 + Incident 6단계로 라이프사이클을 표준화하고, 롤백·스케일 조정 같은 사전 정의된 기계적 완화를 First Action 으로 우선 실행한다. MTTD, MTTR, MTTFA, MTTEA, MTTIR, MTTPM 으로 단계별 시간을 추적한다.
결과약 70건의 장애를 같은 메트릭으로 분석해 First Action 속도가 고객 영향을 가르는 핵심 변수임을 확인했다. 개인 역량 의존을 줄이고 AIOps · Observability 기반 체계로 옮기는 토대를 만들었다.
우아한형제들
우아한형제들 블로그
원문은 여기서 이어서 읽을 수 있어요
원문 읽기
읽음 (0)

이 글과 비슷한

  1. 인프라 / DevOps·vercel-blogVercel Blog·

    Vercel CLI 드라이런 배포로 실제 배포 전 구성 미리 확인하기

    Vercel CLI v54.17.2부터 vercel deploy --dry 명령으로 실제 파일 업로드 없이 배포 구성을 미리 검사할 수 있다. 프레임워크 감지 결과, 포함/제외 파일 목록, 디렉터리 크기 분포, 콘텐츠 해시까지 사전에 확인하고 나서 배포를 결정할 수 있어 의도치 않은 배포 실패를 예방한다.

    #deployment#ci-cd#vercel-cli+1