GPT(a.k.a. 뚝딱이)와 함께 하는 서비스 만들기 #우아콘2023 #우아한형제들

우아한테크·우아콘 2023 2023·2023년

AI 요약

우아한형제들 GPT서비스팀이 "GPT를 꼭 써보자"에서 출발해 사용자 리뷰 데이터 기반 메뉴 추천 서비스 '뚝딱이'를 베타 오픈하기까지의 4개월 반을 정리한 우아콘2023 세션이다. 신기술 적용의 현실적 제약(버전·비용·실시간성·할루시네이션)을 솔직하게 다룬다.

핵심 포인트

LLM의 트랜스퍼 러닝으로 파인튜닝 없이도 세부 태스크가 가능해졌지만, 비용·RPM/TPM 제한·할루시네이션 때문에 첫 프로덕트는 실시간성을 배제하고 DB 적재 방식을 택했다
사용자가 직접 남긴 리뷰 데이터(주문 메뉴·일부 키워드·1,536차원 임베딩)만으로 맥락 기반 추천 리스트를 생성하되, 사람이 키워드 선별·검수로 개입한다
표시광고법 리스크에 대응해 가드레일·프롬프트 엔지니어링(10차 이상)·튜링 테스트를 거쳤고, 향후엔 "문제를 가진 부서와 협업"하는 방식으로 전환한다

왜 읽나LLM을 실제 프로덕트에 적용하려는 팀에게 비용·할루시네이션·법적 리스크·프롬프트 엔지니어링의 구체적 의사결정 사례를 준다.

챕터별 상세

010:00 – 4:45

GPT와 트랜스퍼 러닝, 그리고 첫 고민들

GPT서비스팀 오해진이 GPT를 서비스에 어떻게 적용할지 고민하며 만들어진 팀의 첫 프로덕트를 소개한다. GPT는 LLM의 한 종류로, ChatGPT 인기 이전부터 다양한 LLM이 발전해 왔고 우아한형제들도 올봄부터 활용을 고민했다. 발표자가 꼽은 LLM의 가장 흥미로운 점은 트랜스퍼 러닝 이다. 특정 태스크를 학습한 모델의 지식을 다른 다운스트림 태스크에 재사용하는 기법인데, 모델이 대용량으로 커지며(GPT-3는 1,750억 파라미터, GPT-4는 약 2,200억 파라미터 모델 여덟 개 혼합으로 알려짐) 변화가 생겼다. 과거에는 파인튜닝을 거쳐야 세부 태스크를 수행했지만, 이제는 파인튜닝 없이도 인간과 유사하게 종합적 추론 이 가능해지는 방향으로 발전한다. 즉 개체명 인식·감성분석을 별도 트레이닝하지 않아도 대용량 파운데이션 모델이 꽤 잘하는 것이다. 첫 고민은 어떤 버전을 쓸지였는데, 팀이 시작한 6월엔 GPT-4가 API로 제공되지 않아 ChatGPT 권한이 조금씩 열리던 시기였다.

처음엔 GPT-3.5 터보를 썼지만 아무리 프롬프트 엔지니어링을 해도 미세한 면을 만족시키지 못했고, GPT-4 API가 열리자마자 테스트하니 그 부분이 채워져 GPT-4를 쓰기 시작했다. 다만 비용 고민이 있었다. 3개월간 GPT-3.5 터보로 여러 태스크를 거치고 아웃풋을 바꾸던 비용보다, 프롬프트 엔지니어링 거의 없이 최종 프롬프트로 아웃풋을 낸 GPT-4 비용이 훨씬 많이 들었다. 또 ChatGPT에 익숙한 사용자·부서들은 "실시간성을 왜 안 쓰느냐, 채팅 안 하느냐"고 물었지만, 첫 프로덕트에서 실시간성을 배제 한 이유가 있었다. 유해한 질문에 GPT가 뭐라 답할지, 없는 사실을 지어내는 할루시네이션 을 어떻게 제어할지 초반엔 감이 없었고, 배민은 점심·저녁에 트래픽이 몰리는데 오픈AI가 RPM·TPM을 제한해 트래픽을 감당할 수 있을지, ChatGPT가 느려 앱 내 채팅 경험이 갑갑하지 않을지, 한계를 리전 여러 개로 우회하면 비용이 얼마일지 등의 고민이 있었다. 결국 첫 프로젝트는 현실적으로 실시간성을 배제하고 DB에 적재하는 방향으로 만들기로 했다.

다음 고민 "GPT로 무엇을 할 것인가"로 넘어간다. 발표자는 배민 앱을 켤 때 무엇을 주문할지 정하지 않은 경우가 더 많다는 점을 짚는다. 자사 리서치 결과 응답자의 52%는 메뉴만 정하고, 32%는 메뉴·가게 둘 다 정하지 않은 채 앱을 쓴다고 응답했다. 같은 리서치에서 대표적 커스터머 잡은 (1) 원하는 메뉴를 빠르게 찾기, (2) 맛·퀄리티가 좋은지 알기 두 가지였다. 여기서 인사이트를 얻어, 원하는 메뉴가 있으면 그 가게들만 모아 보여주고 거기에 맛·퀄리티·맥락 정보를 더해 선택을 돕자는 방향을 잡는다. 그 방법을 사용자의 리뷰 데이터 에서 찾았다. 리뷰는 고객이 직접 정성적으로 평가한 데이터로, 플랫폼·사장님의 평가가 아니라 사용자가 직접 남긴 평가라는 점에서 꼭 활용하고 싶었다. 다만 개인정보·지재권 안전장치가 필요해, 차단된 리뷰는 쓰지 않고 작성 5일 이상 지난 리뷰만, 여러 전처리를 거쳐 아주 일부 키워드만 활용했다. 리뷰 의미를 연산에 쓰기 위해 오픈AI 에이다(Ada) 모델로 1,536차원 벡터 임베딩을 활용하고, 서비스 방향성을 '리뷰를 통한 추천'으로 정해 긍정 평가 요소만 추천에 썼다.

고객이 음식을 주문한 맥락(간장치킨의 식감·빈도·함께한 사람, 국물 떡볶이의 상황·맛·음료 등)을 키워드로 추출해, 서비스에는 (1) 주문 메뉴, (2) 리뷰 중 아주 일부 키워드, (3) 에이다 1,536차원 벡터 세 가지만 쓴다. 이렇게 만든 "GPT에게 메뉴 제안을 맡겨 주세요" 서비스를 10월 17일 송파 지역에 베타 오픈했다. 내부에서 '뚝딱이' 라 부르는 GPT 기반 캐릭터가 리뷰를 읽고 베스트 가게 추천 리스트를 만든다('스트레스' 입력 시 스트레스 받을 때 시켜 먹는 메뉴 등). 기존에도 담당자가 한 땀 한 땀 룰 베이스로 만든 유사 서비스가 있었지만, 새 서비스는 여섯 단계로 AI가 리뷰를 분석하되 사람이 곳곳에서 퀄리티를 체크한다(사람이 크게 개입하는 건 '활용 가능한 키워드 선별'). 4개월 반이 걸렸고, 데이터를 훈련에 쓰지 않는 정책의 마이크로소프트 애저 오픈AI와 협업해 리스크를 해소했다. 배민은 표시광고법과 맞닿아 사용자를 기만하면 안 되는데, 초기 뚝딱이는 '현계산'이라는 엉터리 지명을 만들거나 하지 않은 표현을 지어내는 '금쪽이' 같은 모습을 보였다. 사내 UX 라이터와 협업해 아이덴티티를 세팅하고 여러 문체를 퓨샷 러닝으로 넣었으며, GPT-4부터 글자 수·금지 내용 등 가드레일 가이드를 추가하고 10차 이상의 프롬프트 엔지니어링과 세 팀 4차 검수를 거쳤다. 튜링 테스트(1,000명 대상)에서는 곱창·샐러드는 라이터 글이 근소 우세하되 뚝딱이가 이해도·매력도에서 우위, 고기구이는 뚝딱이가 적합도·매력도 모두 우위였고, 모든 리스트에서 최소 30%가 GPT 결과가 더 적합하다고 응답했다(한국어 번역 투 거부감이 한계). 끝으로 앞으로는 '꼭 GPT를 써야 한다'에서 출발하지 않고 풀고 싶은 문제가 있는 부서와 함께 일하며, 리스크 검토를 인풋·모델·아웃풋·서비스 4단계로 정규화하고 가드레일을 핵심 영역으로 연구 중이라고 밝힌다.