- DB / 데이터·
cloudflare-blog·#clickhouse#lock-contention#query-planner - DB / 데이터·
AWS Korea·Amazon ElastiCache for Valkey의 CESC로 Interactive AI 스토리텔링 플랫폼 최적화하기
문제Interactive AI 스토리텔링 플랫폼 타닥(뷰컴즈) 이 실시간 이미지 생성 응답 3~5초, 비용 부담이 큼.
접근CESC(Context Enabled Semantic Caching) — 사용자 입력·월드 메타·캐릭터 상태를 벡터화해 ElastiCache for Valkey 에 저장. 유사 과거 요청 검색해 캐시 이미지 즉시 반환. Valkey GLIDE 클라이언트 하이브리드 검색 + LLM 검증으로 환각 방지.
결과캐시 적중 시 응답 100ms 미만(98% 단축). 전체 트래픽 35% 캐시 처리. 월 1,750만 원 생성 비용 절감.
#embedding#aws#valkey+2 - DB / 데이터·
AWS Korea·Aurora PostgreSQL에서 한국어 하이브리드 검색 구현하기: pg_bigm + pgvector로 만드는 한국어 특화 RAG
문제RAG 애플리케이션의 한국어 검색에서 벡터 검색만으론 고유명사·전문용어 누락과 조사 변화 매칭에 약하다.
접근Aurora PostgreSQL 에서 pg_bigm(바이그램 키워드 검색)과 pgvector(벡터 시맨틱 검색)를 RRF(Reciprocal Rank Fusion)로 결합한 하이브리드 검색을 구성.
결과두 방식의 약점이 상호 보완되어 한국어 RAG 의 검색 품질이 개선. 키워드·의미 검색을 한 DB 안에서 통합 운용 가능.
#rag#pgvector#hybrid-search+1 - DB / 데이터·
meta-eng·Migrating Data Ingestion Systems at Meta Scale
#data-platform#migration#data-ingestion+1 - DB / 데이터·
NHN Cloud Meetup·MySQL 3분 vs ClickHouse 0.3초 — 같은 쿼리입니다
#clickhouse#mysql#olap+2 - DB / 데이터·
discord-blog·How Discord Automates ScyllaDB Clusters at Scale
#scylladb#automation#control-plane - DB / 데이터·
토스 SLASH·StarRocks 운영기: Resource Group으로 멀티테넌트 워크로드 격리하기
문제하나의 OLAP 클러스터(StarRocks)를 여러 팀이 공유할 때, 한 팀의 무거운 쿼리가 다른 팀의 SLA에 영향을 준다.
접근StarRocks의 Resource Group 기능으로 CPU/메모리 자원을 팀 단위로 격리. 워크로드 라벨링과 우선순위 정책으로 멀티테넌트 환경을 운영.
결과한 팀의 ad-hoc 쿼리가 전체 클러스터를 흔들지 못하게 차단. 자원 격리와 비용 효율을 동시에 달성.
#olap#data-platform#starrocks+2 - DB / 데이터·
당근·모두가 데이터를 다루는 AI 시대, 지난 1년간 데이터 팀은 어떻게 달라졌을까?
문제모두가 LLM/AI로 데이터를 다루게 된 시기, 데이터 팀의 역할이 모호해졌다. 단순 SQL 작성/리포트 제공이 셀프서비스로 대체된다.
접근당근 데이터 팀이 지난 1년간 역할을 재정의. 셀프서비스 인프라(쿼리 도구, semantic layer), 데이터 품질 가드레일, LLM 기반 분석 도구 운영으로 이동.
결과분석가가 단순 요청 응대에서 해방돼 더 어려운 문제(데이터 모델링, 실험 설계, 인과 분석)에 집중. 데이터 팀과 다른 팀의 관계가 바뀌었다.
#llm-app#data-engineering#data-team+1 - DB / 데이터·
LINE Engineering·Hive에서 Iceberg로: 데이터 반영 속도 12배 향상의 비밀
문제Hive 기반 데이터 레이크에서 데이터 반영 속도가 느려 down-stream 분석/머신러닝 파이프라인이 지연된다.
접근Apache Iceberg 로 마이그레이션. 파티션 evolution, schema evolution, time travel 같은 Iceberg 기능을 활용한 lakehouse 패턴 적용.
결과데이터 반영 속도 12배 개선. 운영 복잡도는 낮추면서 분석 latency 도 줄임.
#data-engineering#migration#iceberg+2 - DB / 데이터·
무신사 테크·보이지 않는 품질, 데이터. 로그가 틀리면 고객도 틀린다
문제로그가 틀리면 그에 기반한 분석/고객 응대도 틀린다. 데이터 품질 문제는 down-stream 의 모든 결정을 망친다.
접근무신사가 데이터 quality gate, 로그 검증 룰, 이상치 자동 알람 같은 데이터 엔지니어링 패턴을 정착.
결과데이터 품질 문제가 발생 즉시 감지되고, 잘못된 데이터로 의사결정 / 고객 응대가 나가는 빈도가 줄었다.
#data-engineering#logging#observability+2 - DB / 데이터·
카카오페이·수억 건의 데이터, 맛있게 쪼개 먹는 방법 (with. Partitioning)
문제수억 건의 거래 데이터를 단일 테이블에 넣으면 쿼리 / 인덱스 / 백업 모두 비효율적이 된다.
접근카카오페이가 DB 파티셔닝(range / list / hash) 을 선택 기준에 따라 적용. 파티션 키 마이그레이션, 인덱스 재구성, 운영 시 마주친 함정까지 정리.
결과대용량 쿼리 성능 개선 + 백업 / 보관 정책 효율화. 실측 성능 개선 데이터까지 공유.
#database-partitioning#rdbms#scaling+2 - DB / 데이터·
LINE Engineering·슬로우 쿼리 해결기: 함수형 인덱스로 비트 연산 쿼리 최적화하기
문제WHERE 절의 비트 연산 같은 derived 표현식은 일반 인덱스로는 안 잡힌다. 그 결과 슬로우 쿼리가 된다.
접근LINE 이 함수형 인덱스(functional / expression index) 로 표현식 자체에 인덱스를 적용. PostgreSQL / MySQL 둘 다 지원하는 기능 활용.
결과슬로우 쿼리 latency 대폭 단축. 인덱스 설계 시 "표현식도 인덱싱 가능" 이라는 옵션 소개.
#rdbms#sql-optimization#functional-index+2 - DB / 데이터·
네이버 D2·스마트스토어센터 Oracle에서 MySQL로의 무중단 전환기
문제Oracle 에서 MySQL 로 전환할 때 SQL 방언, sequence vs auto_increment, 트랜잭션 모델 차이 같은 함정이 있다. 그것도 무중단으로.
접근네이버 스마트스토어센터가 dual-write + shadow validation + 점진 cutover 패턴으로 마이그레이션. 차이를 자동 비교로 검증하면서 진행.
결과서비스 중단 없이 RDBMS 교체 완료. RDBMS 마이그레이션의 모범 사례로 정리.
#rdbms#oracle-to-mysql#database-migration+2 - DB / 데이터·
원티드랩·데이터는 지웠는데 비용은 그대로? Aurora 스토리지 비용 최적화 하기
#cost-optimization#storage#wanted+1 - DB / 데이터·
Hyperconnect·Super Disk 로 만든 회복탄력성 높은 고성능 ScyllaDB 클러스터
문제Hyperconnect 의 전사 NoSQL 인 ScyllaDB 클러스터에서 cluster rolling update 시 노드 복구 시간이 지나치게 길었다. ML feature store 등 핵심 서비스의 가용성에 영향을 준다.
접근Write-mostly RAID 인 Super Disk 기능을 도입. write 트래픽을 빠른 디스크 그룹으로 흡수해 복구 I/O 를 단축한다. Kubernetes 환경 관리는 Windmill 기반 자동화로 처리.
결과Rolling update 복구 시간을 기존 대비 최대 10배 단축했다. 운영 자동화로 ScyllaDB 클러스터의 회복탄력성을 높였다.
#kubernetes#scylladb#raid+1 - DB / 데이터·
카카오페이·실시간 OLAP을 위한 Apache Pinot 운영 노하우
문제실시간 OLAP 으로 Apache Pinot 를 도입했지만 초기에는 운영 사례가 부족하고 안정성도 부족해 장애·복구·실시간 Upsert 운영에서 시행착오가 컸다.
접근Pinot 클러스터 구성, 노드 장애 시 복구 아키텍처, 실시간 Upsert 테이블 운영 노하우 세 축으로 운영 매뉴얼을 정립. 실제 운영 사고에서 얻은 패턴을 클러스터 토폴로지 결정에 반영.
결과카카오페이 빅데이터 플랫폼에서 Pinot 가 안정적으로 운영되는 기반을 만들었다. 실시간 데이터 분석 인프라의 회복탄력성과 운영 효율을 동시에 확보.
#olap#apache-pinot#real-time-analytics+1 - DB / 데이터·
카카오페이·우리의 애플리케이션에서 PreparedStatement는 어떻게 동작하고 있는가
문제JDBC PreparedStatement 는 Hibernate · HikariCP · MySQL Connector/J 같은 추상화 레이어를 지나면서 실제 동작이 가려진다. 잘못된 설정은 MySQL 의 PREPARE 호출 횟수와 성능에 큰 영향을 준다.
접근추상화 레이어를 내부 구현 수준까지 따라가 PreparedStatement 가 어디에서 캐시되고 어디에서 reset 되는지 검증. `useServerPrepStmts`, `cachePrepStmts` 같은 옵션과 성능을 정량 비교한다.
결과"추상화된 채로 막 쓰는" 단계에서 "설정 의도를 안다" 단계로 올라간다. PreparedStatement 설정 가이드라인을 실측 데이터로 정리.
#mysql#prepared-statement#jdbc+1 - DB / 데이터·
카카오페이·AWS re:Invent 2024 Recap: Database, Storage
문제데이터베이스 확장성, 멀티 리전 일관성, 대규모 분석 데이터셋의 효율적 관리.
접근AWS Aurora DSQL(분산 SQL DB) + S3 Tables(Apache Iceberg 기반 매니지드 스토리지)로 서버리스 + 자동 스케일링 해결.
결과Aurora DSQL 은 Google Spanner 대비 ~4 배 빠른 성능 + 멀티 리전 99.999% 가용성. S3 Tables 는 자동 compaction / indexing 으로 쿼리 최대 3 배, 트랜잭션 처리량 10 배.
#aws#aurora-dsql#s3-tables+2 - DB / 데이터·
쏘카·Data Product (3) 데이터로 실제 운영 효율화가 가능할까?
문제수만 대 차량의 세차 운영이 오염 여부만 보고 결정되어 비/눈 오는 날에도 불필요한 세차 요청이 발생했다.
접근기상청 ASOS 관측소 데이터를 차량 위치 반경 32km 내에서 매칭하고, 시간당 강우 3mm 이상 또는 적설 1cm 이상이면 세차 보류 규칙을 적용한다. 예보와 관측치를 시뮬레이션으로 검증한다.
결과1년 이상 운영하며 세차 요청이 줄었고 강수 종료 후 요청 몰림도 없었다. 직관적 가설을 데이터로 정량 검증해 비용 절감으로 연결한 사례다.
- DB / 데이터·
데브시스터즈·지금 매출 얼마인가요?
문제게임 런칭 당일 매출/동접 지표가 1시간 이상 지연되고 국가/OS/스토어 차원이 빠져 있어 의사결정이 어려웠다.
접근Kafka 토픽을 분리하고 Spark Structured Streaming의 Stream-Stream JOIN과 watermark로 late data를 다룬다. Databricks SQL + Airflow 2분 micro batch로 집계하고 Delta Lake Medallion 구조로 저장한 뒤 Kibana 대시보드로 본다.
결과10분 이내 SLO와 5% 이내 오차를 만족하는 준실시간 지표를 만들었다. 쿠키런:모험의 탑은 출시 일주일에 200만 다운로드, 누적 매출 100억 원을 이 지표로 추적했다.