AI 리뷰를 신뢰할 수 있을까요?

문제크리에이트립의 AI 코드 리뷰가 실제로 잘 작동하는지 객관 지표 없이 정성 평가에만 의존했고, 서브에이전트 협력과 프롬프트 튜닝은 벤치마크 오염 문제까지 발생했다.

접근실 프로덕션 버그 핫픽스를 테스트 케이스로 만들어 초기 점수 33점을 측정, 반영률 (Adoption Rate) adopted/engaged/noised 분류 지표로 전환, GPT 5.2 Codex 모델 교체, Question 뱃지·PR Intent/Decisions 템플릿·반영 자동 추적 도입.

결과월간 반영률 63% 달성. 측정할 수 없으면 개선할 수 없다는 원칙 아래 AI 시스템 운영의 데이터 기반 의사결정 루프를 확립했다.