AI Gateway production index

Vercel AI Gateway를 통해 수십조 토큰과 200,000개 이상 팀의 7개월 프로덕션 데이터를 분석한 보고서다. 어떤 모델이 실제로 쓰이고, 에이전틱 워크로드가 얼마나 증가했으며, 멀티모델 아키텍처가 실제로 어떻게 구성되는지를 실데이터로 보여준다.

핵심 포인트

지출 vs 토큰 볼륨 분리: Anthropic이 지출의 61%를 차지하지만 토큰 볼륨은 Google이 38%로 1위 — "비싼 추론은 Claude, 빠르고 저렴한 건 Gemini Flash"가 실제 패턴.
도구 호출 요청이 6개월 만에 2배 증가: 31.6%(2025년 10월) → 58.9%(2026년 4월). 에이전틱 전환 가속 확인.
워크로드별 비용 차이: 퍼스널 어시스턴트는 토큰 40% 소비, 비용 19.6%만. 코딩 에이전트는 토큰 20%, 비용 21.8% — 오류 비용이 높은 작업일수록 고가 모델 사용.
멀티모델이 표준: 1K~10K 요청 팀은 평균 3개 모델, 10M+ 요청 팀은 평균 35개 모델 운용.
히든 신뢰성 비용: 3.5% 요청이 폴백으로 완료, 비용 기준 4.9% — 크고 비싼 요청이 더 자주 실패.

상세 정리

조사 규모: 7개월 프로덕션 트래픽, 수십조 토큰, 수백 개 모델, 200,000개 이상 팀의 실데이터.
지출/토큰 볼륨 분리의 의미: Anthropic은 프리미엄 추론(Claude Opus/Sonnet), Google Gemini Flash는 고볼륨 저비용 작업. OpenAI는 지출 12%, 토큰 13% — 벤치마크 1위와 실 프로덕션 점유율 차이 확인.
도구 호출 폭증 원인: 에이전트가 외부 시스템과 상호작용 비율 증가. 도구 사용 요청은 비에이전틱 대비 평균 2.6배 토큰 소비.
에이전틱 아키텍처 임계점: 58.9%가 tool-call 포함 — 이미 "대부분의 LLM 요청이 에이전틱" 상태 도달.
워크로드별 최적화: 실수 비용이 높은 작업(의료, 금융, 코딩)은 프리미엄 모델 투자. 단순 분류·요약은 저가 모델로 충분. 비용 효율은 use-case 정렬에서 나옴.
멀티모델 표준화 이유: 프로바이더 락인 방지 + 워크로드별 최적 모델 라우팅 + 장애 시 폴백 체인. 10M+ 요청 팀은 평균 35개 모델 유지.
폴백 인프라 ROI: 3.5% 폴백 성공 = 완전 실패 방지. 비용 기준 4.9% 구조는 중요한 작업(크고 비싼 요청)이 더 자주 실패함을 시사 — 신뢰성 인프라의 실질 가치.
모델 채택 속도: Claude Sonnet 4.6이 출시 첫 달에 Sonnet 패밀리 대부분 점유율 흡수. 이전 버전과의 호환성 유지가 중요.
권고사항: 초기부터 멀티 프로바이더 설계, 라우팅을 핵심 아키텍처 단위로 취급.

왜 읽나LLM 프로덕션 아키텍처를 설계하거나 모델 비용 전략을 수립하려는 AI 엔지니어·CTO에게 실제 산업 데이터 기반의 의사결정 참조를 제공.

Vercel Blog 블로그

원문은 여기서 이어서 읽을 수 있어요

원문 읽기

읽음 (0)

·takedown 요청

AI Gateway production index

이 글과 비슷한

학습 에이전트 — AI 두뇌 구축하기

AI 에이전트 회사 차리기: 설립부터 어디서든 동기화까지

AI Gateway에서 실시간 음성 에이전트 구축하기