Overclocking dbt: Discord's Custom Solution in Processing Petabytes of Data
문제Discord 데이터 팀은 100명이 넘는 개발자가 2,500개 이상의 dbt 모델을 동시에 작업하면서 컴파일 시간 20분, 테스트 테이블 충돌, 페타바이트 리프레시 비효율 같은 한계에 부딪혔다.
접근`generate_alias_name` 매크로로 개발자별 테이블 네이밍을 자동 분리하고, `is_incremental()` 대신 시간 기반 처리와 BigQuery 파티션 복사를 도입했다. 시맨틱 버저닝으로 백필 범위를 정밀 제어한다.
결과모델 빌드 속도가 5배 빨라지고 컴파일 시간이 수 초로 단축됐다. 프로덕션 장애가 줄고 저장·처리 비용도 함께 감소했다.
이 글과 비슷한
- DB / 데이터·
cloudflare-blog·#clickhouse#lock-contention#query-planner - DB / 데이터·
AWS Korea·Amazon ElastiCache for Valkey의 CESC로 Interactive AI 스토리텔링 플랫폼 최적화하기
문제Interactive AI 스토리텔링 플랫폼 타닥(뷰컴즈) 이 실시간 이미지 생성 응답 3~5초, 비용 부담이 큼.
접근CESC(Context Enabled Semantic Caching) — 사용자 입력·월드 메타·캐릭터 상태를 벡터화해 ElastiCache for Valkey 에 저장. 유사 과거 요청 검색해 캐시 이미지 즉시 반환. Valkey GLIDE 클라이언트 하이브리드 검색 + LLM 검증으로 환각 방지.
결과캐시 적중 시 응답 100ms 미만(98% 단축). 전체 트래픽 35% 캐시 처리. 월 1,750만 원 생성 비용 절감.
#embedding#aws#valkey+2 - DB / 데이터·
AWS Korea·Aurora PostgreSQL에서 한국어 하이브리드 검색 구현하기: pg_bigm + pgvector로 만드는 한국어 특화 RAG
문제RAG 애플리케이션의 한국어 검색에서 벡터 검색만으론 고유명사·전문용어 누락과 조사 변화 매칭에 약하다.
접근Aurora PostgreSQL 에서 pg_bigm(바이그램 키워드 검색)과 pgvector(벡터 시맨틱 검색)를 RRF(Reciprocal Rank Fusion)로 결합한 하이브리드 검색을 구성.
결과두 방식의 약점이 상호 보완되어 한국어 RAG 의 검색 품질이 개선. 키워드·의미 검색을 한 DB 안에서 통합 운용 가능.
#rag#pgvector#hybrid-search+1