pile·
인프라 / DevOps·데브시스터즈devsisters·

Datadog Live with Devsisters 돌아보기

문제Zabbix와 CloudWatch 기반 모니터링은 클라우드 환경에서 비효율적이었고, 다중 게임 운영에서 클러스터 장애 전파와 알람 우선순위 혼선이 잦았다.

접근2016년부터 Datadog을 도입해 APM으로 병목을 가시화하고, 게임별 EKS 클러스터를 분리해 장애를 격리했다. Terraform으로 클러스터 모듈을 표준화하고 대응 시간 기준으로 알람을 분류했다.

결과실시간 병목 감지와 빠른 대응이 가능해졌고, 클러스터 관리 일관성과 인시던트 우선순위 체계를 동시에 확보했다.

데브시스터즈
데브시스터즈 블로그
원문은 여기서 이어서 읽을 수 있어요
원문 읽기
읽음 (0)

이 글과 비슷한

  1. 인프라 / DevOps·베스핀글로벌베스핀글로벌·

    엔비디아 쓰던 빅테크들, 왜 직접 ‘AI 칩’ 설계에 뛰어드나?

    문제2026 년 AI 연산의 66% 가 추론에서 발생할 전망. 범용 GPU 는 학습엔 강하지만 추론 환경에서 전력·단가 비효율.

    접근빅테크들이 ASIC(주문형 반도체) 자체 설계로 전환. 구글 TPU(2015), 아마존 트레이니엄+인퍼런시아 분리, MS 하드웨어·소프트웨어 동시 설계, 메타·OpenAI 는 파트너십.

    결과추론 전용 칩 시장 2026 년 500억 달러 전망. 단순 비용 절감을 넘어 자사 서비스 최적화 인프라로 엔비디아 의존도 분산.

    #gpu#asic#ai-chip+2
  2. 인프라 / DevOps·베스핀글로벌베스핀글로벌·

    AI Paradox (1) | LLM 인프라 비용, 1시간 만에 8,500만 원 날라간 이유

    문제AI PoC 월 300만 원이 본 운영 전환 시 3,800만 원까지 폭증. GPU 유휴율 68%, 토큰 폭주로 71분 만에 8,500만 원 손실 사례.

    접근FinOps 3단계: Inform(GPU 활성화율·토큰 소비 가시화) → Optimize(작업 난이도별 LLM 선택으로 최대 80% 절감) → Operate(자동화 스케줄링·토큰 거버넌스).

    결과LLM 인프라 비용 61% 절감, GPU 유휴율 68% → 12%. 콜드 스타트 우려에 갇혀 유휴 GPU 못 끄던 운영 책임 분담 문제를 자동화로 해결.

    #llm#tokenization#gpu+2
  3. 인프라 / DevOps·AWS KoreaAWS Korea·

    뉴빌리티의 Amazon Kinesis Video Streams 기반 원격 관제 확장 사례

    문제자율주행 로봇 300대를 RTSP + 포트포워딩으로 원격 관제하니 신규 사이트마다 20분~수시간 네트워크 설정이 필요. 운영 확장 불가.

    접근Amazon Kinesis Video Streams 의 WebRTC Signaling Channel 로 P2P 연결 구성. roundTripTime, fractionLost 메트릭 + TWCC 기반 비트레이트 조정으로 LTE 가변 환경 대응.

    결과포트포워딩 제거, 외부 이해관계자도 영상 접근 가능, 네트워크 변동에도 안정 품질 유지.

    #iot#aws#webrtc+2