pile·
AI / ML·vercel-blogVercel Blog·

AI Gateway production index

Vercel AI Gateway를 통해 수십조 토큰과 200,000개 이상 팀의 7개월 프로덕션 데이터를 분석한 보고서다. 어떤 모델이 실제로 쓰이고, 에이전틱 워크로드가 얼마나 증가했으며, 멀티모델 아키텍처가 실제로 어떻게 구성되는지를 실데이터로 보여준다.

핵심 포인트
  • 지출 vs 토큰 볼륨 분리: Anthropic이 지출의 61%를 차지하지만 토큰 볼륨은 Google이 38%로 1위 — "비싼 추론은 Claude, 빠르고 저렴한 건 Gemini Flash"가 실제 패턴.
  • 도구 호출 요청이 6개월 만에 2배 증가: 31.6%(2025년 10월) → 58.9%(2026년 4월). 에이전틱 전환 가속 확인.
  • 워크로드별 비용 차이: 퍼스널 어시스턴트는 토큰 40% 소비, 비용 19.6%만. 코딩 에이전트는 토큰 20%, 비용 21.8% — 오류 비용이 높은 작업일수록 고가 모델 사용.
  • 멀티모델이 표준: 1K~10K 요청 팀은 평균 3개 모델, 10M+ 요청 팀은 평균 35개 모델 운용.
  • 히든 신뢰성 비용: 3.5% 요청이 폴백으로 완료, 비용 기준 4.9% — 크고 비싼 요청이 더 자주 실패.
상세 정리
  • 조사 규모: 7개월 프로덕션 트래픽, 수십조 토큰, 수백 개 모델, 200,000개 이상 팀의 실데이터.
  • 지출/토큰 볼륨 분리의 의미: Anthropic은 프리미엄 추론(Claude Opus/Sonnet), Google Gemini Flash는 고볼륨 저비용 작업. OpenAI는 지출 12%, 토큰 13% — 벤치마크 1위와 실 프로덕션 점유율 차이 확인.
  • 도구 호출 폭증 원인: 에이전트가 외부 시스템과 상호작용 비율 증가. 도구 사용 요청은 비에이전틱 대비 평균 2.6배 토큰 소비.
  • 에이전틱 아키텍처 임계점: 58.9%가 tool-call 포함 — 이미 "대부분의 LLM 요청이 에이전틱" 상태 도달.
  • 워크로드별 최적화: 실수 비용이 높은 작업(의료, 금융, 코딩)은 프리미엄 모델 투자. 단순 분류·요약은 저가 모델로 충분. 비용 효율은 use-case 정렬에서 나옴.
  • 멀티모델 표준화 이유: 프로바이더 락인 방지 + 워크로드별 최적 모델 라우팅 + 장애 시 폴백 체인. 10M+ 요청 팀은 평균 35개 모델 유지.
  • 폴백 인프라 ROI: 3.5% 폴백 성공 = 완전 실패 방지. 비용 기준 4.9% 구조는 중요한 작업(크고 비싼 요청)이 더 자주 실패함을 시사 — 신뢰성 인프라의 실질 가치.
  • 모델 채택 속도: Claude Sonnet 4.6이 출시 첫 달에 Sonnet 패밀리 대부분 점유율 흡수. 이전 버전과의 호환성 유지가 중요.
  • 권고사항: 초기부터 멀티 프로바이더 설계, 라우팅을 핵심 아키텍처 단위로 취급.
왜 읽나LLM 프로덕션 아키텍처를 설계하거나 모델 비용 전략을 수립하려는 AI 엔지니어·CTO에게 실제 산업 데이터 기반의 의사결정 참조를 제공.
vercel-blog
Vercel Blog 블로그
원문은 여기서 이어서 읽을 수 있어요
원문 읽기
읽음 (0)

이 글과 비슷한

  1. AI / ML·인프랩 (인프런)인프런 (인프랩)·

    학습 에이전트 — AI 두뇌 구축하기

    인프런이 강의 학습 에이전트를 구축하며 겪은 기술 스택 선정, 컨텍스트·도구 설계, LLM-as-a-Judge 품질 개선, 비용 최적화 전략을 다룬다. LLM SSE 스트리밍 처리를 위해 Spring MVC + Virtual Thread + Spring AI를 선택하고, 명시적 프롬프트 캐싱으로 입력 토큰을 90% 절감하는 과정까지 실전 경험이 담겨 있다.

    #ai-agent#llm#llm-as-a-judge+2
  2. AI / ML·네이버 D2네이버 D2·

    AI 에이전트 회사 차리기: 설립부터 어디서든 동기화까지

    네이버 ENGINEERING DAY 2026 발표. Claude Code를 매일 쓰지만 매번 초기화되는 문제를 해결하기 위해 NaverMadCat이라는 다중 AI 에이전트 조직 프레임워크를 구축한 경험을 다룬다. 비서실장 역할의 에이전트가 10개 부서 에이전트를 조율하며, 어느 환경에서 접속해도 동일한 컨텍스트로 동작하도록 동기화 메커니즘을 구현했다.

    #claude-code#multi-agent#ai-agent+2
  3. AI / ML·vercel-blogVercel Blog·

    AI Gateway에서 실시간 음성 에이전트 구축하기

    Vercel AI Gateway가 음성·오디오 기능을 정식 지원한다. 실시간 대화 음성(Realtime Voice), 텍스트→음성(TTS), 음성→텍스트(STT) 세 가지를 기존 텍스트/이미지 모델과 동일한 라우팅·인증·모니터링 체계 위에서 사용할 수 있다. OpenAI gpt-realtime-2·Whisper와 xAI Grok 오디오 모델을 지원하며, AI SDK 7 베타로 제공된다.

    #llm-app#ai-sdk#realtime-voice+2