pile·
스캐터랩

scatter-lab

스캐터랩 (이루다)

스캐터랩 (이루다)의 엔지니어링 블로그. 매시간 RSS로 자동 수집해요.

1
전체
+0
이번 주
최신
  1. AI / ML·스캐터랩스캐터랩·

    유저와 함께 만드는 LLM — 제타에 Preference Optimization 도입하기

    문제엔터테인먼트 LLM 의 재미를 향상하기 위한 선호도 데이터 수집의 어려움.

    접근DPO(Direct Preference Optimization) 알고리즘과 사용자 재생성 신호 필터링으로 preference pair 구성.

    결과1차 사이클에서 주간 이용 시간 8.1% 상승, Week 1 리텐션 1.19%p 증가. 2차 사이클에서 추가 3.27% 이용 시간 증가.

    #llm#performance#preference-optimization+3