엔비디아 쓰던 빅테크들, 왜 직접 ‘AI 칩’ 설계에 뛰어드나?

엔비디아 GPU 를 쓰던 빅테크들이 왜 직접 AI 칩(ASIC) 설계에 뛰어드는지를, "추론 변곡점"이라는 비용 구조 변화로 풀어낸 산업 분석이다. 추론 연산이 AI 컴퓨팅의 다수를 차지하며 지속 누적 비용이 되자, 학습엔 GPU 를 유지하되 추론엔 자체 ASIC 을 병행하는 공급망 다변화가 정착했다.

핵심 포인트

2026년 AI 컴퓨팅의 약 66%가 추론에서 발생하며, 추론은 학습과 달리 지속 누적되는 비용 구조다.
GPU 는 범용 설계라 추론에서 전력·단가가 비효율적이라, 특정 연산에 최적화된 ASIC 이 부상한다.
Google TPU, Amazon Trainium/Inferentia, Microsoft Maia 등 빅테크가 자체 칩을 키운다.
핵심은 엔비디아 대체가 아니라 학습은 GPU, 추론은 ASIC 으로 가는 공급망 다변화다.
추론 전용 칩 시장만 2026년 약 500억 달러로 전망된다.

상세 정리

배경: 딜로이트 전망상 2026년 AI 컴퓨팅의 66%가 추론에서 발생해, 일회성인 학습과 달리 지속 누적되는 추론 비용이 핵심 이슈로 떠올랐다.
GPU 한계: 범용 설계라 추론 환경에서 전력 소모·단가가 비효율적이고, 공급 부족·가격 폭등이 반복된다.
시장 규모: 올해 데이터센터 투자가 약 6,000억 달러, 추론 전용 칩 시장만 2026년 약 500억 달러로 전망된다.
Google: 2015년 TPU 출시로 가장 완성도 높은 ASIC 을 보유하고 브로드컴과 2031년까지 장기 개발 계약을 맺었다.
Amazon: 학습용 Trainium, 추론용 Inferentia 로 용도를 나누고 칩 사업 연매출이 200억 달러를 넘겼다.
Microsoft·Meta: Microsoft 는 Maia 를 하드웨어·소프트웨어 동시 설계로 키우고, Meta 는 브로드컴과 협력해 대규모 인프라를 구축한다.
신규 진입: OpenAI 는 Cerebras 와 100억 달러 이상 계약으로 의존도를 분산하고, 머스크는 텍사스에 1,190억 달러 규모 반도체 공장을 계획하며, ARM 도 첫 데이터센터용 ASIC 을 냈다.
ASIC vs GPU: GPU 는 다양한 연산에 강해 학습에 유리하고, ASIC 은 특정 연산 최적화로 추론에서 전력·비용 효율이 좋아 멀티 가속기 구조가 정착했다.
전략 함의: 학습은 CUDA 생태계 때문에 GPU 를 유지하고 추론은 ASIC 을 병행하는, 비용 절감보다 서비스 최적화·벤더 의존도 완화가 목적인 다변화다.
트레이드오프: 직접 설계(구글) vs 파트너십(메타·오픈AI)의 속도·역량 차이, 폐쇄적 최적화 vs 개방성 같은 선택이 갈린다.