데이터 분석가가 직접 정의, 배포, 관리하는 뱅크샐러드 데이터 파이프라인
문제데이터 파이프라인 개발이 데이터 엔지니어에게 집중되며 요청·협의·구현·배포가 반복돼 조직 확장이 막혔다.
접근datapipe로 EMR·Spark·Airflow DAG 구성을 추상화했다. 메타데이터와 비즈니스 로직만 작성하면 동작하고, Slack ChatOps 기반으로 분석가가 직접 배포한다. PR별 자동 테스트 서버와 pytest 유닛 테스트, DqCriteria 기반 데이터 품질 검증도 통합했다.
결과비엔지니어 직군의 파이프라인 개발 사례가 연간 600건으로 약 6배 늘었다. 엔지니어는 인프라에, 제품팀은 지표·데이터 제품 운영에 집중하게 됐다.
이 글과 비슷한
- DB / 데이터·
cloudflare-blog·#clickhouse#lock-contention#query-planner - DB / 데이터·
AWS Korea·Amazon ElastiCache for Valkey의 CESC로 Interactive AI 스토리텔링 플랫폼 최적화하기
문제Interactive AI 스토리텔링 플랫폼 타닥(뷰컴즈) 이 실시간 이미지 생성 응답 3~5초, 비용 부담이 큼.
접근CESC(Context Enabled Semantic Caching) — 사용자 입력·월드 메타·캐릭터 상태를 벡터화해 ElastiCache for Valkey 에 저장. 유사 과거 요청 검색해 캐시 이미지 즉시 반환. Valkey GLIDE 클라이언트 하이브리드 검색 + LLM 검증으로 환각 방지.
결과캐시 적중 시 응답 100ms 미만(98% 단축). 전체 트래픽 35% 캐시 처리. 월 1,750만 원 생성 비용 절감.
#embedding#aws#valkey+2 - DB / 데이터·
AWS Korea·Aurora PostgreSQL에서 한국어 하이브리드 검색 구현하기: pg_bigm + pgvector로 만드는 한국어 특화 RAG
문제RAG 애플리케이션의 한국어 검색에서 벡터 검색만으론 고유명사·전문용어 누락과 조사 변화 매칭에 약하다.
접근Aurora PostgreSQL 에서 pg_bigm(바이그램 키워드 검색)과 pgvector(벡터 시맨틱 검색)를 RRF(Reciprocal Rank Fusion)로 결합한 하이브리드 검색을 구성.
결과두 방식의 약점이 상호 보완되어 한국어 RAG 의 검색 품질이 개선. 키워드·의미 검색을 한 DB 안에서 통합 운용 가능.
#rag#pgvector#hybrid-search+1