pile·
AI / ML·뱅크샐러드banksalad·

뱅크샐러드에서 테스트 데이터를 생성하는 방법 (feat. LLM)

문제마이데이터 기반 자산관리 서비스는 은행/카드/대출/투자/보험을 아우르는 일관된 테스트 데이터가 필요한데 수동 생성은 시간이 너무 많이 든다.

접근LLM에 페르소나(인구통계, 라이프스타일, 재무 목표)와 JSON 스키마, few-shot 예시를 주는 prompt engineering으로 데이터를 만든다. 후처리로 markdown/설명을 제거하고 Kotlin DataClass로 변환해 개발 서버에 적재한다. GitHub Actions Cron으로 매일 갱신한다.

결과요일별 소비 패턴(월요일 공과금, 주중 쇼핑, 주말 가족 활동)까지 자연스럽게 들어간 테스트 데이터가 자동 생성된다. QA·개발 조직 전체가 별도 수작업 없이 활용한다.

뱅크샐러드
뱅크샐러드 블로그
원문은 여기서 이어서 읽을 수 있어요
원문 읽기
읽음 (0)

이 글과 비슷한

  1. AI / ML·AWS KoreaAWS Korea·

    GloZ의 Amazon OpenSearch Service를 기반으로 한 자연어 이력서 검색 시스템 구축 사례 — Part 1: 데이터 파이프라인과 인덱싱

    문제콘텐츠 번역가 10만 명을 자연어로 검색하려면 BM25 키워드와 벡터 의미 검색을 동시에 잘 다뤄야 한다. 기존 PostgreSQL 검색은 nDCG@10 0.90 목표에 미달.

    접근Amazon OpenSearch Service 로 이전하면서 Nori 한국어 형태소 분석기 + 다국어 임베딩 + Bedrock Cohere/Claude 로 데이터 정제 파이프라인 구축. 단일 쿼리에서 키워드와 벡터를 결합.

    결과nDCG@10 0.90 이상 달성. 표준 어휘 사전과 별칭 매핑으로 이력서 데이터 일관성도 확보.

    #embedding#opensearch#rag+2
  2. AI / ML·베스핀글로벌베스핀글로벌·

    AI Paradox (3) | 할루시네이션의 진짜 원인은 데이터 파이프라인에 있다

    문제AI 할루시네이션은 모델이 아니라 데이터 파이프라인 결함의 결과. PoC 에서 90% 정확도였던 모델이 프로덕션에서 실패하는 이유.

    접근3 레이어 구조: 입력단 AI 기반 자동 품질 감시 → 거버넌스 레이어로 출처·흐름·접근 추적 → 출력단 AI-on-AI 자동 검증. 검색 품질이 답변 정확도를 좌우하므로 맥락 기반 청킹·멀티모달 임베딩·하이브리드 검색·리랭킹 네 기법 적용.

    결과단일 플랫폼 도입이나 벡터 DB 구축만으론 부족함을 명확히 한 실전 검증 패턴. 도메인별 맥락을 잃지 않는 데이터 파이프라인이 진짜 해법.

    #rag#governance#data-pipeline+2