pile·
인프라 / DevOps·pinterest-engPinterest Engineering·

시스템 속 좀비 찾기 — 실제 CPU 병목 사례

문제Pinterest의 분산 ML job이 간헐적 네트워크 timeout으로 실패해 GPU 자원을 낭비했다.
접근fleet-wide metric과 재현 가능한 격리 환경을 만들고, temporal profiling과 gProfiler로 OS 이미지의 systemd 실패 패턴을 추적했다.
결과환경 차이와 반복 실패 프로세스가 CPU 병목을 만든 원인을 찾아냈다. transient 성능 문제에는 시간축 profiling이 효과적이었다.
pinterest-eng
Pinterest Engineering 블로그
원문은 여기서 이어서 읽을 수 있어요
원문 읽기
읽음 (0)

이 글과 비슷한

  1. 인프라 / DevOps·vercel-blogVercel Blog·

    Vercel CLI 드라이런 배포로 실제 배포 전 구성 미리 확인하기

    Vercel CLI v54.17.2부터 vercel deploy --dry 명령으로 실제 파일 업로드 없이 배포 구성을 미리 검사할 수 있다. 프레임워크 감지 결과, 포함/제외 파일 목록, 디렉터리 크기 분포, 콘텐츠 해시까지 사전에 확인하고 나서 배포를 결정할 수 있어 의도치 않은 배포 실패를 예방한다.

    #deployment#ci-cd#vercel-cli+1