pile·

SLASH 23 - 분산 추적 체계 & 로그 중심으로 Observability 확보하기

토스·토스 SLASH 23 2023·

챕터별 상세

010:00 – 2:23

왜 옵저버빌리티인가 — 모니터링을 넘어서

토스페이먼츠의 하태호가 '시스템을 어떻게 관측하는가'를 주제로 옵저버빌리티(Observability) 기반 체계와 그것으로 테스트 환경까지 개선한 사례를 소개한다. 클라우드·컨테이너·MSA가 널리 채택되며 개발 조직 구성에 도움이 됐지만, 기반 환경이 가상화·추상화될수록 문제 추적은 더 어려워진다. 수시로 업데이트되는 서비스와 의존 관계, 동적 인프라, 단일 요청이 여러 네트워크 홉을 통과하는 구조, 높은 카디널리티 지표가 기존 모니터링을 무력화한다.

그래서 '이미 경험한 장애를 탐지하는' 모니터링을 넘어, 겪어 보지 못한 현상에 가시성을 주고 원인 질문에 답할 수 있는 시스템이 필요하다. 발표자는 이 용어를 처음 정의한 전기공학자 루돌프 칼만을 인용해 옵저버빌리티를 '시스템의 출력으로부터 시스템의 상태를 이해할 수 있는 능력'으로 소개하며 본론을 연다.