pile·

옵저버빌리티 & SRE — SLO·계측·로그·카오스

발행

SLI/SLO 프레임워크, OpenTelemetry 계측, 대규모 메트릭 저장소와 로그 파이프라인, 서비스 가시화, 옵저버빌리티 오너십, 카오스 엔지니어링까지. 신뢰성 엔지니어링 로드맵.

12
  1. 01
    LINE EngineeringLINE Engineering

    신뢰성 향상을 위한 SLI/SLO 활용 1편 - SLI/SLO 프레임워크 및 서비스 상태 확인 도구 LINE Status 개발기

    SLI/SLO 도입 시 여러 도구를 조합해 운영하면 일관성과 가시성이 떨어진다.

  2. 02
    LINE EngineeringLINE Engineering

    신뢰성 향상을 위한 SLO/SLI 도입 3편 - 서비스 적용 사례

    SLI/SLO 이론은 알지만 실제 서비스에 어떻게 적용하고 운영할지가 어려운 부분.

  3. 03
    discord-blogDiscord Blog

    적게 측정해서 더 많이 배우기 — 핵심을 잡는 소수 고품질 메트릭

    실험 기본 지표가 50개 수준으로 늘면서 다중 비교 보정이 실제 효과 탐지력을 낮췄다.

  4. 04
    saramin사람인 기술블로그

    OpenTelemetry 도입기

    Kubernetes 기반 MSA 전환 과정에서 서비스 복잡도가 늘고 모니터링 데이터가 파편화됐다.

  5. 05
    saramin사람인 기술블로그

    표준을 통한 마이크로 서비스의 Observability 구축기

    Kubernetes 환경에서 마이크로서비스 규모가 확대되면서 파편화된 모니터링 도구들로는 서비스 간 인과관계 추적과 운영 효율성 확보가 어려웠다.

  6. 06
    aws-architectureAWS Architecture

    Lambda 로 CloudWatch 메트릭을 VPC 내 OpenTelemetry 수집기로 스트리밍

    CloudWatch Metric Streams는 OpenTelemetry 엔드포인트를 지원하지만, VPC 내부 self-hosted collector에는 직접 도달하기 어렵다.

  7. 07
    네이버 D2네이버 D2

    네이버 검색의 대규모 메트릭 저장소, VictoriaMetrics 운영기

    네이버 검색 같은 대규모 시스템의 메트릭을 Prometheus로 다루다 보면 클러스터 확장성과 장기 보관 비용에서 한계가 온다.

  8. 08
    네이버 D2네이버 D2

    비용, 성능, 안정성을 목표로 한 지능형 로그 파이프라인 도입

    Logiss 로그 파이프라인은 단일 Storm 토폴로지, 피크 트래픽 기준 장비 산정, 중요도 없는 처리, 100% 저장 정책으로 비용과 지연이 커졌다.

  9. 09
    카카오페이카카오페이

    일 41TB, 200억 건의 로그를 ClickStack으로 실시간 처리하기 - 호그와트 도서관 프로젝트

    일 41TB, 200억 건 로그를 실시간 처리하면서 비용까지 통제해야 한다. 상용 observability 도구로는 비용이 부담된다.

  10. 10
    카카오페이카카오페이

    서비스에 와드 박기: 서비스 상태 가시화 프로젝트, 핑크와드를 소개합니다.

    카카오페이증권은 모니터링·옵저버빌리티 같은 기술 영역 가시화는 고도화돼 있었지만, "고객 관점에서 지금 어떤 불편을 겪고 있는가" 를 빠르게 파악할 수단이 부족했다.

  11. 11
    airbnb-engAirbnb Engineering

    From vendors to vanguard: Airbnb’s hard-won lessons in observability ownership

    Airbnb의 vendor-managed observability는 비용과 데이터 제어 한계가 커졌고, 팀별 dashboard와 alert query도 일관성이 낮았다.

  12. 12
    oliveyoung올리브영 테크블로그

    QA가 서버를 죽여본 이유 – Host Level 카오스 엔지니어링 테스트

    개발 로그상으로는 정상인데 고객 화면에서는 장애가 보이는 케이스가 누적돼 인프라 장애 대응이 어려웠다.