pile·

WOOWA NLP 프레임워크를 활용한 자연어 처리 서비스 적용 #우아콘2023 #우아한형제들

우아한테크·우아콘 2023 2023·

챕터별 상세

010:00 – 8:11

NLP 기본 개념과 WOOWA NLP 프레임워크의 의의

데이터서비스실 사이언스팀 데이터 사이언티스트 김동환이 "NLP 프레임워크를 활용한 자연어처리 서비스 적용"을 발표한다. NLP 는 컴퓨터가 자연어를 이해해 문제를 해결하게 하는 기술이며, 핵심은 텍스트를 수치 벡터로 만드는 임베딩(의미·문법 정보가 담김)이다. 임베딩을 수행하는 모델이 언어 모델(LM), 그 규모를 키운 것이 거대 언어 모델(LLM) 이다. NLP 학습 모델은 언어 모델을 내부에 두고 뒷단에 짧은 태스크 헤드를 붙여, 분류("김치찌개가 맛있다"→긍정)나 생성("동해물과 백두산이"→"마르고 닳도록") 같은 태스크를 수행한다. 이 프레임워크의 의의는 셋이다. 첫째 배민 코퍼스로 자체 구축한 언어 모델 을 활용한다는 점이다. 코퍼스(말뭉치)를 학습하면 그 안의 의미 정보와 도메인 지식을 익히므로, 배민 코퍼스로 사전 학습한 모델은 배민 도메인 지식을 내포해 효과적으로 모델링할 수 있다. 둘째 반복 태스크를 빠르게 구현 한다는 점(파이토치 라이트닝 기반 하이레벨 인터페이스로, 기존 한 명이 2~3개월 걸릴 세 프로젝트를 2주 만에 완료한 사례), 셋째 LLM을 효율적으로 활용(ChatGPT뿐 아니라 라마 2 등 오픈 LLM도 쓰며 도메인 어댑테이션·프롬프트 엔지니어링 두 갈래)한다는 점이다.