xAI 연 7조 태우는데 Anthropic은 월 1조 내며 쓰는 이유

목차

{
  "type": "error",
  "error": {
    "type": "rate_limit_error",
    "message": "This request would exceed the rate limit for your organization (40000 input tokens per minute, see 'anthropic-ratelimit-input-tokens-reset' header)."
  }
}

오후에 RAG 파이프라인을 돌리다가 받은 응답이다. 프롬프트 캐싱까지 켰는데도 분당 토큰 한도에 막혔다. 백엔드로 넘어온 지 2년차인데 이런 에러를 받을 때마다 "왜 이렇게 빡빡한가"가 늘 의문이었다. 그래서 오늘은 호기심에 xAI와 Anthropic이 컴퓨트에 얼마를 쓰는지 자료를 뒤져봤다. 결론은 단순했다. 회사들이 GPU에 미친 듯이 돈을 태우고 있고, 우리가 받는 429 에러는 그 비용 구조에서 자연스럽게 흘러나오는 부산물이다.

특히, xAI는 작년 한 해 컴퓨트에 $6.4B(약 8.5조 원 수준) 규모를 썼다는 보도가 있었고, Anthropic은 월 $1.25B(약 1.6조 원 수준)를 지불한다는 추정이 2026년 초 외신에 나왔다. 단순 환산하면 Anthropic의 연간 컴퓨트 비용은 $15B 부근이다. 같은 LLM 회사인데 지출 단위가 다르고, 무엇보다 돈을 태우는 방식이 완전히 다르다.

오늘 알게 된 두 회사의 지출 구조

xAI — 자체 데이터센터에 $6.4B를 부은 회사

한편, xAI는 멤피스에 Colossus라는 자체 데이터센터를 짓고 GPU를 직접 깔았다. 보도(2026년 1분기 기준 추정치)에 따르면 작년 컴퓨트 지출이 $6.4B 수준이고, H100·H200 기반 클러스터를 자체 운영한다. 핵심은 이게 "임대"가 아니라 "구매"라는 점이다. NVIDIA H100 한 장이 시장가로 $30K~$40K 부근이라 단순 곱셈만 해도 GPU 본체값에 수 조 단위가 들어간다.

그래서, 자체 데이터센터의 의미는 회계적으로 자본 지출(CAPEX)이다. 한 번 사두면 감가상각이 끝날 때까지 추가 비용은 전기, 냉각, 인건비 정도다. 한계 비용이 낮다는 뜻이다.

Anthropic — 클라우드 위에 매달 $1.25B를 붓는 회사

이처럼, Anthropic은 다른 구조다. 자체 GPU를 사는 대신 AWS의 Trainium과 GCP의 TPU, NVIDIA GPU를 클라우드로 임대해서 쓴다. 2026년 보도 기준 월 $1.25B를 컴퓨트에 지불한다는 수치가 나왔는데, 이게 사실이라면 연 환산 $15B다. xAI의 작년 지출보다 두 배 이상 많다.

특히, 자본 지출이 아니라 운영 지출(OPEX)이라는 게 핵심이다. GPU 자체를 안 사기 때문에 자본 지출 부담은 적지만, 매월 클라우드 회사에 마진을 얹어서 지불해야 한다. 빠르게 확장할 수 있지만, 한계 비용이 높다.

핵심 비교

항목 xAI Anthropic
보고 시점 2025년 연간 추정 2026년 초 월간 추정
컴퓨트 지출 약 $6.4B / 년 약 $1.25B / 월 (연 환산 $15B)
인프라 형태 자체 데이터센터 (Colossus) 클라우드 임대 (AWS, GCP)
주요 가속기 NVIDIA H100/H200 자체 보유 AWS Trainium, GCP TPU 혼합
비용 성격 CAPEX 중심 OPEX 중심
한계 비용 낮음 (전기·운영) 높음 (클라우드 마진 포함)
확장 속도 느림 (GPU 조달 6개월) 빠름 (즉시 스케일)
대표 모델 Grok Claude

결국, 수치는 공개 보도 기반 추정치다(2026년 5월 기준). 회사 공식 발표가 아니라 외신·분석가 추정이라는 점은 감안해야 한다. 다만 두 회사의 자본 구조가 근본적으로 다르다는 사실 자체는 IR 자료에서도 일관되게 확인된다.

이 차이가 우리 API 호출에 미치는 영향

rate limit가 빡빡한 진짜 이유

이처럼, 처음의 429 에러로 돌아간다. Anthropic의 분당 토큰 한도(Tier별 40K~400K 수준)는 단순한 서버 보호 장치가 아니다. 매월 $1.25B가 나가는 OPEX 구조에서, 토큰 한도는 곧 마진 관리다. 무제한으로 풀어주면 한 사용자가 월 구독료를 훨씬 초과하는 비용을 발생시킬 수 있다.

예를 들어, API 가격표를 자세히 보면 이 구조가 보인다. Claude Sonnet 입력 토큰 단가는 100만 토큰당 $3 부근이고, 출력은 $15다(2026년 5월 기준 공개 가격). 단가에 클라우드 임대 마진이 이미 녹아있다. 그래서 토큰 단가는 낮추기 어렵고, 대신 rate limit으로 사용량 자체를 통제한다.

xAI는 반대다. 자체 GPU를 깔아놨기 때문에 한계 비용이 낮다. 그래서 X Premium+ 구독자에게 Grok을 사실상 정액제로 풀어주는 정책이 가능하다. 다만 자체 데이터센터 한 곳에 트래픽이 몰리면 응답 지연이 들쭉날쭉해진다는 후기가 많다. 클라우드처럼 즉시 스케일 아웃이 안 되니까.

같은 토큰 단가, 다른 응답 경험

반면, 프론트엔드에서 LLM API를 부를 때는 "응답이 빠른가, 정확한가"만 봤다. 백엔드로 넘어와서 실제 서비스에 붙여보니 그게 다가 아니다. 토큰 단가가 비슷한 두 API라도 운영 중에 받는 신호가 다르다.

# 같은 요청을 두 API에 보냈을 때 실무에서 보이는 패턴
# (절대값이 아니라 운영 환경에서 체감되는 경향)

anthropic_signals = {
    "p50_latency": "안정적",
    "p99_latency": "예측 가능",
    "rate_limit": "명확한 한도, 사전 알람 가능",
    "에러 패턴": "429가 주, 5xx 드뭄",
}

xai_signals = {
    "p50_latency": "상황에 따라 변동",
    "p99_latency": "데이터센터 부하 시 튐",
    "rate_limit": "구독 등급별, 명시적 한도 적음",
    "에러 패턴": "5xx와 timeout이 섞임",
}

한편, 위 코드는 운영 패턴을 코드 형태로 정리한 메모일 뿐 측정 수치가 아니다. 핵심은 "토큰 단가가 비슷해도 SLA 설계가 달라진다"는 점이다. Anthropic은 429를 미리 받기 때문에 큐와 재시도 정책으로 대응하기 좋다. xAI는 latency 분산이 커서 타임아웃 설정과 폴백 로직을 더 신경 써야 한다.

자체 GPU vs 클라우드 — 트레이드오프

물론, 이 구조를 이해하고 나니 두 회사의 사업 전략이 코드 레벨에서 보이기 시작했다. xAI는 자본 지출로 우위를 만들고 정액제로 록인을 노린다. Anthropic은 클라우드 위에서 빠른 확장과 안정적인 API 경험으로 B2B 시장을 가져간다. 같은 LLM이지만 누구한테 팔지가 다르다.

예를 들어, 프론트엔드 시절에는 "OpenAI 쓸까 Claude 쓸까" 정도로 끝났던 의사결정이, 백엔드 와서는 "이 API의 unit economics가 뭐고 그게 내 SLA에 어떻게 영향을 주나"까지 내려가야 한다는 게 오늘 알게 된 부분이다.

판단 기준 — 언제 어떤 API를 쓸 것인가

자료만 봐서는 추상적이라 두 API를 실제 워크로드에 다 붙여봤다. 거기서 나온 실용적 기준이다.

Anthropic Claude를 선택할 상황

  • 긴 컨텍스트가 필요한 작업 — 200K 컨텍스트 윈도우 안에서 응답 품질 저하가 비교적 적은 편이다. 문서 요약, 코드베이스 분석류에 강하다.
  • 프롬프트 캐싱으로 비용을 깎을 수 있는 워크로드 — 동일 시스템 프롬프트가 반복되는 RAG, 에이전트 루프에서는 캐시 적중 시 입력 토큰 비용이 큰 폭으로 떨어진다. 캐시 효과는 공식 문서에 명시된 비율로 계산 가능하다.
  • rate limit를 사전에 예측해야 하는 운영 환경 — 한도가 명확하니 알람과 큐 설계가 쉽다.
  • 응답 일관성이 중요한 도메인 — 법무, 금융, 헬스케어처럼 동일 프롬프트의 응답 분산이 작아야 하는 워크로드에 안정적이다.

xAI Grok을 선택할 상황

  • 실시간 데이터가 필요한 작업 — X 플랫폼 데이터에 직접 접근하는 게 강점이다. 트렌드 분석, 뉴스 기반 응답에 강하다.
  • 개인 프로젝트 또는 프로토타이핑 — X Premium 구독에 포함되는 사용량 정책 덕에 비용 예측이 단순하다.
  • 대규모 호출이 필요한데 토큰 기반 과금이 부담스러운 경우 — 정액제 옵션이 의미 있는 비용 절감을 줄 수 있다.

둘 다 안 쓰는 게 나은 상황

  • 분류, 임베딩, 짧은 요약 같은 단순 작업 — 솔직히 작은 오픈소스 모델로도 충분하다. 비용 차이가 한 자릿수 배수 이상 난다.
  • 데이터를 외부로 못 보내는 환경 — 두 API 모두 클라우드 호출이다. 온프레미스가 필요하면 Llama 계열이나 Mistral 같은 자체 호스팅 옵션을 봐야 한다.
  • 응답 시간이 100ms 이하로 빡빡한 실시간 시스템 — 두 API 모두 평균 latency가 수백 ms 이상이다. 이 영역은 LLM이 아니라 다른 접근이 맞다.

메모 — 백엔드 2년차가 정리한 것

월 $1.25B 같은 숫자를 처음 봤을 땐 비현실적으로 느껴졌다. 그런데 분해해보면 우리가 매일 받는 429, 5xx, latency 스파이크가 다 이 숫자에서 흘러나오는 신호다. 프론트엔드 시절엔 "API가 좀 느리네" 정도로 넘어갔던 게, 백엔드에서는 회사의 unit economics까지 내려가서 봐야 SLA를 설계할 수 있다. 한 달 정도 실제로 호출해보고 빌링을 직접 받아본 게 가장 빠른 학습이었다.

또한, xAI의 $6.4B와 Anthropic의 월 $1.25B는 단순한 자랑이 아니다. 이 컴퓨트 전쟁의 비용 구조가 그대로 우리 코드의 timeout 값, retry 전략, 모델 선택 기준에 박힌다.

관련 글