임베딩 없이 지식 에이전트 구축하기 — 파일시스템 기반 RAG 대안

임베딩과 벡터 DB 없이 파일시스템 bash 명령으로 지식 에이전트를 구현하는 접근을 제안한다. LLM이 파일 탐색과 grep/find/cat에 능숙하다는 점을 활용해 벡터 유사도 대신 실제 bash 명령으로 콘텐츠를 검색하게 한다. 기존 RAG 파이프라인 대비 비용을 $1.00 → $0.25로 줄이고 디버깅 가시성을 높였다.

핵심 포인트

임베딩 대신 grep/find/cat — LLM이 벡터 스코어 대신 실제 bash 명령으로 파일 탐색
투명성: 에러 시 "grep -r 'pricing' docs/ 실행 → enterprise.md 읽음" 처럼 정확히 추적 가능
비용 75% 감소: 세일즈 콜 요약 에이전트 $1.00 → $0.25/회
Complexity Router: 단순 질의는 저비용 빠른 모델, 복잡한 질의는 강력한 모델로 자동 분기
Chat SDK로 GitHub, Discord, Slack, Teams 등 여러 플랫폼 동시 배포

상세 정리

문제: 기존 벡터 DB RAG는 임베딩 파이프라인 튜닝이 복잡하고, 결과가 왜 선택됐는지 벡터 스코어로 추적하기 어렵다.
핵심 아이디어: LLM은 방대한 코드 학습 데이터 덕분에 디렉토리 탐색과 파일 처리에 이미 능숙하다. 별도 임베딩 없이 기존 능력 활용.
아키텍처: 콘텐츠 소스를 Postgres 저장 → Vercel Workflow로 스냅샷 저장소와 동기화 → 질의 시 Vercel Sandbox가 스냅샷 로드 → bash 도구(grep, find, cat) 실행.
벡터 vs 파일시스템: 임베딩은 블랙박스 유사도 스코어와 파라미터 튜닝 필요. 파일시스템은 실제 bash 명령으로 가시적 추적, 설정 없이 동작.
비용 절감: 세일즈 콜 요약 에이전트에서 연산당 $1.00 → $0.25 — 75% 감소.
Complexity Router: 단순 질문은 빠르고 저렴한 모델, 복잡한 질문은 강력한 모델로 자동 분기해 비용 최적화.
디버깅 예시: "grep -r 'pricing' docs/ 실행 → docs/plans/enterprise.md 읽음 → 잘못된 섹션 가져옴"처럼 정확히 추적. 벡터 스코어 추측 불필요.
멀티플랫폼: Chat SDK로 같은 에이전트를 GitHub, Discord 기본 제공, Slack/Teams/Google Chat 어댑터 추가 가능.
Admin Agent: "최근 24시간 에러 뭐야?" 같은 자연어로 내부 도구 조회 가능한 관리자 에이전트 내장.