pile·
루닛

루닛

lunit

루닛의 엔지니어링 블로그. 매시간 RSS로 자동 수집해요.

3
전체
+0
이번 주
최신
  1. AI / ML·루닛루닛·

    Dr.GRPO를 직접 발명할 수도 있었다

    2025년에 등장한 Dr.GRPO는 GRPO의 편향 문제를 수정한 언어 모델 강화학습 알고리즘이다. 이 글은 REINFORCE(1992)부터 Dr.GRPO까지 각 알고리즘이 전임자의 결함을 어떻게 해결하는지 순차적으로 유도하며, 독자가 '직접 발명할 수 있었다'는 관점에서 전개한다. 수식보다 직관을 강조하면서도 기술 정밀도를 유지한다.

    #llm-app#reinforcement-learning#grpo+2