RAG 없이 20만 대 자동차와 실시간으로 대화하기 (2)

문제20만 대 중고차 챗봇에서 RAG를 쓰니 벡터 DB 동기화 지연으로 유령 매물·정보 누락이 생기고 비용도 컸으며, 실시간성이 중요한 거래 도메인에 맞지 않았다.

접근LLM이 아닌 백엔드가 흐름을 통제하는 API 증강 생성 구조로 바꿔, asyncio로 20여 개 내부 API를 병렬 호출하고 JSON을 헤더·리스트가 있는 마크다운으로 변환해 LLM에 넘기며 메모리 10분 TTL·프롬프트 캐싱과 SSE 스트리밍을 붙였다.

결과약 0.5초 안에 데이터 수집이 끝나고 벡터 DB 동기화 문제가 사라져 유령 매물이 제거됐으며, 프롬프트 캐싱으로 Input 토큰 비용이 줄고 차량 한 대의 전체 정보가 청킹 없이 LLM에 전달됐다.

엔카닷컴 블로그

원문은 여기서 이어서 읽을 수 있어요

읽음 (0)

이 글과 비슷한