pile·
인프라 / DevOps·AWS KoreaAWS Korea Tech·

Amazon EKS에서 NVIDIA OSMO 기반 Physical AI 워크플로 운영하기

문제Physical AI 모델 개발은 데이터 수집·시뮬레이션·정책 학습·엣지 배포가 반복되는 라이프사이클을 거치며, GPU 스케줄링·아티팩트 보존·보안·관찰 가능성을 일관되게 관리하기 어렵다.
접근Amazon EKS에 NVIDIA OSMO와 KAI Scheduler를 결합하고, Karpenter로 GPU 노드를 동적 프로비저닝한다. OSMO의 pool/platform 추상화와 Pod Template으로 복잡한 Kubernetes 설정을 캡슐화하고, EFA 기반 멀티 노드 분산 학습과 prewarm 패턴으로 scale-to-zero 문제를 해결한다.
결과단일 GPU 작업부터 멀티 노드 분산 학습까지 동일한 워크플로 정의로 지원하는 반복 가능한 프레임워크를 구축, Karpenter 자동 스케일링으로 유휴 GPU 비용을 최소화했다.
AWS Korea
AWS Korea Tech 블로그
원문은 여기서 이어서 읽을 수 있어요
원문 읽기
읽음 (0)

이 글과 비슷한

  1. 인프라 / DevOps·vercel-blogVercel Blog·

    Vercel CLI 드라이런 배포로 실제 배포 전 구성 미리 확인하기

    Vercel CLI v54.17.2부터 vercel deploy --dry 명령으로 실제 파일 업로드 없이 배포 구성을 미리 검사할 수 있다. 프레임워크 감지 결과, 포함/제외 파일 목록, 디렉터리 크기 분포, 콘텐츠 해시까지 사전에 확인하고 나서 배포를 결정할 수 있어 의도치 않은 배포 실패를 예방한다.

    #deployment#ci-cd#vercel-cli+1