pile·

SLASH 23 - 대규모 로그 처리도 OK! Elasticsearch 클러스터 개선기

토스·토스 SLASH 23 2023·

챕터별 상세

010:00 – 3:09

하루 53억 건의 로그 — hot-warm 아키텍처

토스증권 데이터플랫폼 팀의 데이터 엔지니어 이준환이 대규모 로그 수집·분석을 위해 1년간 Elasticsearch 클러스터를 운영·개선해온 기록을 공유한다. 토스증권은 클라이언트·서버·시스템 로그를 약 90여 개 파이프라인으로 모으는데, 하루에만 6TB·약 53억 건이 새로 쌓인다. 90일치만 보관해도 570TB라는 막대한 공간이 필요하고 로그는 계속 늘기에 수평 확장과 안정적 운영을 위한 개선이 불가피하다.

클러스터는 온프레미스로 운영해 규모가 커질수록 상면(공간)과 관리 부담이 커진다. 검색·분석의 대부분이 최근 보름 이내 로그를 대상으로 한다는 점에 착안해 hot-warm 아키텍처를 도입했다. 핫 노드보다 디스크가 3배 큰 웜 노드를 두고, 오래된 인덱스는 인덱스 생명주기 관리(ILM) 정책으로 웜 노드로 이동시키며 롤오버 후 90일이 지나면 삭제한다. 최근 로그를 더 오래 두려면 핫 노드를, 전체를 더 길게 두려면 웜 노드만 증설하는 식으로 목적에 따라 유연하게 확장할 수 있게 됐다.