pile·
스캐터랩

스캐터랩 (이루다)

scatter-lab

스캐터랩 (이루다)의 엔지니어링 블로그. 매시간 RSS로 자동 수집해요.

3
전체
+0
이번 주
최신
  1. AI / ML·스캐터랩스캐터랩 (이루다)·

    유저와 함께 만드는 LLM 2편 — 제타에 Online Learning 도입하기

    스캐터랩 ML팀이 자체 LLM 서비스 '제타'에 GRPO 기반 온라인 강화학습을 도입한 과정을 다룬다. DPO는 기존 선호 데이터 분포 내 학습에 그치지만, GRPO는 모델 생성 응답을 리워드 모델이 실시간 평가해 분포 밖 탐색이 가능하다. 단순 알고리즘 적용이 아니라 비동기 인프라 설계, 확률 불일치 보정(TIS), reward hacking 해결까지 세 가지 도전을 통합한 결과, A/B 테스트에서 DPO 대비 이용시간과 리텐션 모두 유의미하게 개선됐다.

    #grpo#online-learning#rlhf+2