Oracle에서 MongoDB로의 CDC Pipeline 구축
문제카카오페이증권이 MSA를 확장하면서 Oracle과 MongoDB 사이의 실시간 데이터 동기화가 필요해졌다. RDBMS에서 NoSQL로 가는 CDC는 참고할 사례가 적었고, 초기 적재와 변경 이벤트를 함께 다뤄야 했다.
접근Kafka Connect 위에 Debezium Source Connector와 MongoDB Sink Connector로 파이프라인을 만든다. 초기 6TB는 Talend Open Studio와 mongoimport로 분리 적재하고, 그 뒤 변경분은 Kafka 이벤트로 실시간 동기화했다.
결과6TB·130억 건의 초기 데이터를 9일 만에 적재했고, 누적된 변경분 lag도 12시간 안에 따라잡았다. 이후 안정 운영 중이다.
이 글과 비슷한
- DB / 데이터·
cloudflare-blog·#clickhouse#lock-contention#query-planner - DB / 데이터·
AWS Korea·Amazon ElastiCache for Valkey의 CESC로 Interactive AI 스토리텔링 플랫폼 최적화하기
문제Interactive AI 스토리텔링 플랫폼 타닥(뷰컴즈) 이 실시간 이미지 생성 응답 3~5초, 비용 부담이 큼.
접근CESC(Context Enabled Semantic Caching) — 사용자 입력·월드 메타·캐릭터 상태를 벡터화해 ElastiCache for Valkey 에 저장. 유사 과거 요청 검색해 캐시 이미지 즉시 반환. Valkey GLIDE 클라이언트 하이브리드 검색 + LLM 검증으로 환각 방지.
결과캐시 적중 시 응답 100ms 미만(98% 단축). 전체 트래픽 35% 캐시 처리. 월 1,750만 원 생성 비용 절감.
#embedding#aws#valkey+2 - DB / 데이터·
AWS Korea·Aurora PostgreSQL에서 한국어 하이브리드 검색 구현하기: pg_bigm + pgvector로 만드는 한국어 특화 RAG
문제RAG 애플리케이션의 한국어 검색에서 벡터 검색만으론 고유명사·전문용어 누락과 조사 변화 매칭에 약하다.
접근Aurora PostgreSQL 에서 pg_bigm(바이그램 키워드 검색)과 pgvector(벡터 시맨틱 검색)를 RRF(Reciprocal Rank Fusion)로 결합한 하이브리드 검색을 구성.
결과두 방식의 약점이 상호 보완되어 한국어 RAG 의 검색 품질이 개선. 키워드·의미 검색을 한 DB 안에서 통합 운용 가능.
#rag#pgvector#hybrid-search+1