옵저버빌리티 & SRE — SLO·계측·로그·카오스
발행SLI/SLO 프레임워크, OpenTelemetry 계측, 대규모 메트릭 저장소와 로그 파이프라인, 서비스 가시화, 옵저버빌리티 오너십, 카오스 엔지니어링까지. 신뢰성 엔지니어링 로드맵.
- 글
- 12
- 01
LINE Engineering신뢰성 향상을 위한 SLI/SLO 활용 1편 - SLI/SLO 프레임워크 및 서비스 상태 확인 도구 LINE Status 개발기
SLI/SLO 도입 시 여러 도구를 조합해 운영하면 일관성과 가시성이 떨어진다.
- 02
- 03
- 04
- 05
사람인 기술블로그표준을 통한 마이크로 서비스의 Observability 구축기
Kubernetes 환경에서 마이크로서비스 규모가 확대되면서 파편화된 모니터링 도구들로는 서비스 간 인과관계 추적과 운영 효율성 확보가 어려웠다.
- 06
AWS ArchitectureLambda 로 CloudWatch 메트릭을 VPC 내 OpenTelemetry 수집기로 스트리밍
CloudWatch Metric Streams는 OpenTelemetry 엔드포인트를 지원하지만, VPC 내부 self-hosted collector에는 직접 도달하기 어렵다.
- 07
네이버 D2네이버 검색의 대규모 메트릭 저장소, VictoriaMetrics 운영기
네이버 검색 같은 대규모 시스템의 메트릭을 Prometheus로 다루다 보면 클러스터 확장성과 장기 보관 비용에서 한계가 온다.
- 08
네이버 D2비용, 성능, 안정성을 목표로 한 지능형 로그 파이프라인 도입
Logiss 로그 파이프라인은 단일 Storm 토폴로지, 피크 트래픽 기준 장비 산정, 중요도 없는 처리, 100% 저장 정책으로 비용과 지연이 커졌다.
- 09
카카오페이일 41TB, 200억 건의 로그를 ClickStack으로 실시간 처리하기 - 호그와트 도서관 프로젝트
일 41TB, 200억 건 로그를 실시간 처리하면서 비용까지 통제해야 한다. 상용 observability 도구로는 비용이 부담된다.
- 10
카카오페이서비스에 와드 박기: 서비스 상태 가시화 프로젝트, 핑크와드를 소개합니다.
카카오페이증권은 모니터링·옵저버빌리티 같은 기술 영역 가시화는 고도화돼 있었지만, "고객 관점에서 지금 어떤 불편을 겪고 있는가" 를 빠르게 파악할 수단이 부족했다.
- 11
Airbnb EngineeringFrom vendors to vanguard: Airbnb’s hard-won lessons in observability ownership
Airbnb의 vendor-managed observability는 비용과 데이터 제어 한계가 커졌고, 팀별 dashboard와 alert query도 일관성이 낮았다.
- 12
올리브영 테크블로그QA가 서버를 죽여본 이유 – Host Level 카오스 엔지니어링 테스트
개발 로그상으로는 정상인데 고객 화면에서는 장애가 보이는 케이스가 누적돼 인프라 장애 대응이 어려웠다.