pile·
DB / 데이터·그린데이터그린데이터·

MongoDB 5.0 부터 새롭게 도입 된 Time Series Collections

문제일반 MongoDB 컬렉션에 시계열 데이터를 그대로 쌓으면 측정값이 디스크 블록에 흩어지면서 인덱스 크기와 쿼리 비용이 모두 부풀어 오른다. IoT·금융 시세 같은 시계열 워크로드에 별도 최적화가 필요했다.
접근MongoDB 5.0에서 도입된 Time Series Collection을 사용한다. 컬렉션 생성 시 `timeField`(시간)와 `metaField`(메타데이터)를 지정하면 MongoDB가 관련 측정값을 인접한 블록으로 묶어 저장한다. `granularity`로 "seconds/minutes/hours"를 정해 내부 버킷 크기까지 튜닝할 수 있고, 일반 컬렉션과 동일한 쿼리 인터페이스를 그대로 사용한다.
결과30만 건 주식 시세 데이터 벤치마크에서 저장 공간이 약 1/4 수준으로 줄었고, 단순 쿼리는 약 100배, 복합 aggregation은 약 40% 빨라졌다. IoT·금융·로그처럼 "시간 + 메타" 패턴의 데이터에 별도 시계열 DB 없이도 MongoDB만으로 효율적인 저장·조회가 가능해진 셈이다.
그린데이터
그린데이터 블로그
원문은 여기서 이어서 읽을 수 있어요
원문 읽기
읽음 (0)

이 글과 비슷한

  1. DB / 데이터·pinterest-engPinterest Engineering·

    Pinterest 차세대 DB 수집 프레임워크의 자동화된 스키마 진화

    Pinterest의 CDC 기반 DB 수집 파이프라인은 MySQL에서 Kafka, Flink, Spark, Iceberg를 거치는 다층 구조다. 스키마 변경이 생기면 모든 계층을 동시에 업데이트해야 해 드리프트, 배포 실패, 데이터 불일치가 반복됐다. Pinterest 엔지니어링 팀은 이를 해결하기 위해 가산적 변경만 자동화하는 스키마 진화 프레임워크를 구축하고, PR 기반 롤아웃과 SLA 기반 일관성 모델을 도입했다.

    #data-pipeline#apache-flink#cdc+2