pile·
AI / ML·dropbox-techDropbox Tech·

DSPy로 AI 평가를 더 나은 응답으로 전환하기 — Dropbox Dash Chat 사례

Dropbox가 Dash Chat 에이전트의 응답 품질을 높이기 위해 DSPy 최적화 프레임워크를 도입한 과정을 다룬다. 인간 레이블로 LLM 평가자(judge)를 보정하고, 보정된 judge로 에이전트의 시스템 프롬프트를 자동 최적화하는 두 단계 전략으로 불완전 답변 26% 감소와 토큰 사용 5.4% 절감을 달성했다.

핵심 포인트
  • 에이전트 평가는 멀티스텝 과정 전체(의도 파악 → 도구 호출 → 컨텍스트 선택 → 응답 합성)를 판단해야 하므로 전통적 검색 관련성 평가보다 본질적으로 복잡하다.
  • 5개 차원(의도 파악, 의미적 관련성, 도구 호출, 지시 따르기, 컨텍스트 선택)으로 평가 프레임워크를 구성하고 1~5점 척도 + 실패 코드로 인간 레이블을 수집했다.
  • DSPy의 GEPA, MIPROv2 알고리즘으로 LLM judge 프롬프트를 자동 최적화해 인간 판단과의 일치도를 높였다.
  • 보정된 judge를 사용해 과거 채팅을 재현 실행하고 특정 실패 모드에 집중한 타겟 프롬프트 최적화를 수행했다.
  • 2주 만에 프롬프트 후보 6개를 생성 — 이전 달 수동 변경 5회와 대비.
상세 정리
  • 배경: Dash Chat은 사용자 의도를 파악하고 도구를 활용해 응답을 구성하는 멀티스텝 AI 에이전트로, 멀티턴 대화 전체를 평가해야 한다는 과제가 있었다.
  • 평가 차원 설계: 의도 파악, 의미적 관련성, 도구 호출, 지시 따르기, 컨텍스트 선택 5개 차원으로 구조화했다.
  • 인간 레이블 수집: 1~5점 척도 평가와 함께 실패 코드(stale evidence, missing context, unsupported claims, incomplete coverage, personalization failures)를 기록해 단순 점수보다 풍부한 애노테이션을 만들었다.
  • 이 풍부한 레이블은 judge 훈련뿐 아니라 실패 원인 디버깅에도 활용되었다.
  • DSPy 최적화: GEPA와 MIPROv2 알고리즘이 인간 레이블 예시와 비교하며 자동으로 프롬프트 변경안을 제안하고 테스트했다.
  • 에이전트 개선 루프: 보정된 judge로 과거 채팅을 재현 실행하고, 프로덕션과 유사한 점수로 평가 후 특정 실패 모드에 집중한 프롬프트 최적화를 수행했다.
  • 안전 장치: 프롬프트 편집을 소규모 타겟 지시 업데이트로 제한하고 자동 리뷰 체크를 추가해 최적화 루프가 무분별하게 동작하지 않도록 했다.
  • 결과 수치: 불완전 답변 26% 감소, 핵심 누락 13% 감소, 토큰 사용 5.4% 절감, 응답 길이 9.8% 단축, 개선 효과는 24시간 내에 가시화되었다.
왜 읽나LLM 에이전트 응답 품질을 체계적으로 측정하고 DSPy로 자동 최적화하려는 AI/ML 엔지니어에게 실전 파이프라인 사례.
dropbox-tech
Dropbox Tech 블로그
원문은 여기서 이어서 읽을 수 있어요
원문 읽기
읽음 (0)

이 글과 비슷한

  1. AI / ML·인프랩 (인프런)인프런 (인프랩)·

    학습 에이전트 — AI 두뇌 구축하기

    인프런이 강의 학습 에이전트를 구축하며 겪은 기술 스택 선정, 컨텍스트·도구 설계, LLM-as-a-Judge 품질 개선, 비용 최적화 전략을 다룬다. LLM SSE 스트리밍 처리를 위해 Spring MVC + Virtual Thread + Spring AI를 선택하고, 명시적 프롬프트 캐싱으로 입력 토큰을 90% 절감하는 과정까지 실전 경험이 담겨 있다.

    #ai-agent#llm#llm-as-a-judge+2
  2. AI / ML·네이버 D2네이버 D2·

    AI 에이전트 회사 차리기: 설립부터 어디서든 동기화까지

    네이버 ENGINEERING DAY 2026 발표. Claude Code를 매일 쓰지만 매번 초기화되는 문제를 해결하기 위해 NaverMadCat이라는 다중 AI 에이전트 조직 프레임워크를 구축한 경험을 다룬다. 비서실장 역할의 에이전트가 10개 부서 에이전트를 조율하며, 어느 환경에서 접속해도 동일한 컨텍스트로 동작하도록 동기화 메커니즘을 구현했다.

    #claude-code#multi-agent#ai-agent+2
  3. AI / ML·vercel-blogVercel Blog·

    AI Gateway에서 실시간 음성 에이전트 구축하기

    Vercel AI Gateway가 음성·오디오 기능을 정식 지원한다. 실시간 대화 음성(Realtime Voice), 텍스트→음성(TTS), 음성→텍스트(STT) 세 가지를 기존 텍스트/이미지 모델과 동일한 라우팅·인증·모니터링 체계 위에서 사용할 수 있다. OpenAI gpt-realtime-2·Whisper와 xAI Grok 오디오 모델을 지원하며, AI SDK 7 베타로 제공된다.

    #llm-app#ai-sdk#realtime-voice+2