2부: 정책을 따르는 평가자, LLM-as-a-Judge
문제LLM 평가에 LLM 을 쓰는 "LLM-as-a-Judge" 접근에서, 평가자가 일관성 있게 정책을 따르게 만들기가 어렵다.
접근평가 기준을 명확한 정책으로 표현하고, 평가자 LLM 이 그 정책을 따르도록 프롬프트와 few-shot 예시를 구성. 평가 결과를 다시 평가하는 메타-평가까지 적용.
결과도메인 특화 평가에서 일관성과 재현성을 확보. 평가 정책 변경 시에도 빠른 재평가 가능한 운영 체계 구축.
