pile·
DB / 데이터·cloudflare-blogCloudflare Blog·

Cloudflare 통합 데이터 플랫폼과 AI 에이전트 구축기

문제초당 10억 건 이상의 이벤트가 ClickHouse, Kafka, BigQuery 등 수십 개 분산 시스템에 흩어져 통합 분석이 불가능했다.
접근Apache Trino를 쿼리 엔진으로, R2 Data Catalog(Apache Iceberg)를 스토리지로 삼는 데이터 레이크하우스(Town Lake)를 구축. Workers AI 기반으로 PII 자동 탐지(Skimmer)와 대화형 AI 에이전트(Skipper)도 추가했다.
결과상위 100개 고객 매출 질의를 3초 내 응답. 기존 200~300줄 SQL이 5줄로 축소. 최근 측정에서 324명이 91,760건 쿼리를 실행했다.
cloudflare-blog
Cloudflare Blog 블로그
원문은 여기서 이어서 읽을 수 있어요
원문 읽기
읽음 (0)

이 글과 비슷한

  1. DB / 데이터·pinterest-engPinterest Engineering·

    Pinterest 차세대 DB 수집 프레임워크의 자동화된 스키마 진화

    Pinterest의 CDC 기반 DB 수집 파이프라인은 MySQL에서 Kafka, Flink, Spark, Iceberg를 거치는 다층 구조다. 스키마 변경이 생기면 모든 계층을 동시에 업데이트해야 해 드리프트, 배포 실패, 데이터 불일치가 반복됐다. Pinterest 엔지니어링 팀은 이를 해결하기 위해 가산적 변경만 자동화하는 스키마 진화 프레임워크를 구축하고, PR 기반 롤아웃과 SLA 기반 일관성 모델을 도입했다.

    #data-pipeline#apache-flink#cdc+2