Snowflake Arctic의 기술적 진보

문제기존 대형 언어 모델은 훈련 비용이 너무 컸고, SQL 생성·코딩·지침 따르기 같은 기업 작업에 최적화된 모델을 합리적인 비용으로 만들 방법이 필요했다.

접근Snowflake Arctic은 10B 밀집 트랜스포머에 잔차 128×3.66B MoE MLP를 결합한 Dense-MoE 하이브리드를 채택해 총 480B 파라미터 중 17B만 활성화하도록 설계하고, 가중치·코드·데이터를 Apache 2.0 라이선스로 공개했다.

결과훈련 비용을 약 200만 달러(3,000 GPU 주) 미만으로 낮췄고, 메모리 읽기가 Code-Llama 70B 대비 최대 4배, Mixtral 8x22B 대비 최대 2.5배 효율적이며 배치 1에서 초당 70개 이상의 토큰 처리량을 달성했다.

메가존클라우드 블로그

원문은 여기서 이어서 읽을 수 있어요

원문 읽기

읽음 (0)

·takedown 요청

이 글과 비슷한

AI / ML·인프런 (인프랩)·3일 전
학습 에이전트 — AI 두뇌 구축하기
인프런이 강의 학습 에이전트를 구축하며 겪은 기술 스택 선정, 컨텍스트·도구 설계, LLM-as-a-Judge 품질 개선, 비용 최적화 전략을 다룬다. LLM SSE 스트리밍 처리를 위해 Spring MVC + Virtual Thread + Spring AI를 선택하고, 명시적 프롬프트 캐싱으로 입력 토큰을 90% 절감하는 과정까지 실전 경험이 담겨 있다.
#ai-agent#llm#llm-as-a-judge+2
AI / ML·Vercel Blog·4일 전
AI Gateway에서 실시간 음성 에이전트 구축하기
Vercel AI Gateway가 음성·오디오 기능을 정식 지원한다. 실시간 대화 음성(Realtime Voice), 텍스트→음성(TTS), 음성→텍스트(STT) 세 가지를 기존 텍스트/이미지 모델과 동일한 라우팅·인증·모니터링 체계 위에서 사용할 수 있다. OpenAI gpt-realtime-2·Whisper와 xAI Grok 오디오 모델을 지원하며, AI SDK 7 베타로 제공된다.
#llm-app#ai-sdk#realtime-voice+2
AI / ML·Dropbox Tech·1주 전
DSPy로 AI 평가를 더 나은 응답으로 전환하기 — Dropbox Dash Chat 사례
Dropbox가 Dash Chat 에이전트의 응답 품질을 높이기 위해 DSPy 최적화 프레임워크를 도입한 과정을 다룬다. 인간 레이블로 LLM 평가자(judge)를 보정하고, 보정된 judge로 에이전트의 시스템 프롬프트를 자동 최적화하는 두 단계 전략으로 불완전 답변 26% 감소와 토큰 사용 5.4% 절감을 달성했다.
#ai-agent#llm-evaluation#dspy+2

Snowflake Arctic의 기술적 진보

이 글과 비슷한

학습 에이전트 — AI 두뇌 구축하기

AI Gateway에서 실시간 음성 에이전트 구축하기

DSPy로 AI 평가를 더 나은 응답으로 전환하기 — Dropbox Dash Chat 사례