생성형 검색 (RAG) 평가의 최근 트렌드

문제RAG 시스템이 LLM Ops의 일부로 들어가면서 어떤 지표로 품질을 측정하고 회귀를 잡을지, 표준화된 평가 방법이 절실해졌다.

접근네이버 DNA는 LangSmith·W&B 같은 상용과 OpenPlayground·Helicone·RAGAs 같은 오픈소스 위에서 컨텍스트 정확도·재현율, 응답을 명제 단위로 쪼개는 충실도, 답변을 질문으로 역변환하는 답변 관련성 지표를 정리하고 Long Context와 RAG의 적합 영역을 비교했다.

결과요약형은 LC, 다중 출처·대화형은 RAG라는 선택 기준과 출처의 과정까지 검증하는 고도화된 평가 흐름이 정리되며, 운영형 RAG 평가의 표준 골격이 잡혔다.