OpenAI Broadcom 커스텀 칩, Nvidia 탈출이라는 통념을 의심해본다

목차

ASIC(Application-Specific Integrated Circuit)은 특정 워크로드 하나에 맞춰 회로를 굳혀버린 칩이다. OpenAI가 Broadcom과 공동 설계해 공개한 첫 자체 칩이 정확히 이 범주에 속한다. 추론(inference) 워크로드 가속에 초점을 맞췄고, 양산은 2026년 하반기로 보도된 상태다(2026-06-25 시점, 보도 기준).

발표가 나오자마자 "Nvidia 시대 종말"이라는 헤드라인이 줄을 이었다. 주가가 흔들렸고, 타임라인에는 "이제 진짜 끝났다"는 글이 도배되다시피 했다. 통념은 단순하다. OpenAI가 자체 칩을 만들면 Nvidia 의존이 끊긴다. 정말 그런가.

따라서, 통념의 9할은 과장이라고 본다. 그렇게 단정하는 이유를 풀어본다.

ASIC이 GPU를 대체한다는 말은 절반만 맞다

또한, ASIC은 특정 연산에 강하다. 행렬 곱 한 가지에 회로를 다 쏟아부으면 같은 트랜지스터로 GPU보다 몇 배 빠른 결과를 낸다. Google TPU가 그렇게 시작했고, AWS Trainium·Inferentia, Meta MTIA가 모두 같은 길을 걸어왔다.

다만 ASIC의 강점이 GPU의 약점은 아니다. GPU는 범용성을 일부러 남겨둔 칩이다. 새 모델 구조가 등장하면 — Mixture of Experts, sliding window attention, speculative decoding 같은 변화 — GPU는 컴파일러만 다시 짜면 따라간다. ASIC은 다음 세대 칩을 다시 설계해야 한다. 칩 설계부터 양산까지 보통 18~24개월이 든다.

첫 자체 칩은 검증용 성격이 강하다

즉, OpenAI의 첫 칩은 추론에 집중한다고 알려져 있다. 학습 워크로드까지 같이 돌리겠다는 발표는 없다(2026-06-25 시점). 학습은 여전히 H100·B200·Blackwell Ultra가 도맡는다.

대형 AI 회사의 자체 칩 1세대는 거의 다 "검증용" 성격을 띤다. Google TPU v1도 학습용이 아니라 추론 가속용으로 사내에서만 썼다. 외부에 본격 노출된 건 v2부터다. OpenAI 칩도 비슷한 궤적을 그릴 가능성이 커 보인다.

Nvidia 매출 구조와 OpenAI 물량은 분리해서 봐야 한다

한편, OpenAI 한 곳의 물량이 Nvidia 데이터센터 매출에서 차지하는 비중은 두 자릿수 초반대로 추정된다(여러 추정치 평균, 공시 수치 아님). 자체 칩이 그 비중의 절반을 가져간다고 쳐도, Nvidia 전체 데이터센터 매출에서 차지하는 영향은 한 자릿수 후반대다. 그 사이에 Meta·Anthropic·xAI·중동 국부펀드 발주가 더 늘어난다는 게 컨센서스다.

CUDA가 진짜 해자다 — 코드 한 줄의 이동 비용

프론트엔드만 하던 시절에는 OpenAI API가 그냥 fetch 한 번이면 끝나는 줄 알았다. 백엔드로 넘어와서 LLM 게이트웨이를 직접 다루기 시작한 뒤 가장 충격받은 게 CUDA 의존도였다.

또한, 모델 추론 코드를 만지다 보면 PyTorch가 사실상 CUDA 위의 얇은 추상화라는 걸 매번 체감한다. torch.compile, triton, flash-attention, vLLM, xformers… 라이브러리 이름만 늘어놓아도 한 줄을 채운다. 이 중 절반 이상이 CUDA 커널을 직접 짜놨거나, CUDA 가정 위에 빌드돼 있다.

AMD MI300X가 스펙시트 수치만 보면 H100과 비빈다. 막상 ROCm으로 옮기는 순간 같은 모델이 "왜 안 돌지" 단계를 한 번씩은 거친다. 커뮤니티 패치가 늦고, 새 attention 변형이 나오면 한두 달은 기다려야 한다. 회사에 따라서는 그 한두 달이 분기 매출이다.

자체 ASIC은 더 심하다. 컴파일러 스택, 커널 라이브러리, 분산 학습 프레임워크 연동, 디버깅 도구까지 전부 새로 만들어야 한다. Google TPU가 10년 가까이 다듬은 게 XLA 컴파일러 하나다. OpenAI가 같은 길을 짧게 끊고 가더라도 1~2년 안에 끝낼 일은 아니다.

한편, :::tip 새 가속기가 나왔다고 바로 옮기지 말 것. 최소 6개월은 기존 GPU와 병행 운영하면서 같은 모델·같은 데이터에 대해 출력 일치율, 토큰당 비용, p99 지연시간 세 가지를 비교하자. 한 가지만 보면 반드시 다른 둘 중 하나가 무너진다. :::

스펙시트 TFLOPS는 실제 처리량의 한참 위에 있다

TFLOPS 수치는 가장 후한 조건에서 측정한 숫자다. 실제 워크로드에서 그 숫자의 절반만 뽑아내도 잘 만든 거다. 자체 칩은 보통 첫 세대에서 이 비율이 30~40%대에 머문다. CUDA 위에서는 같은 모델이 60~80%까지 올라간다. 같은 다이 면적, 같은 전력에서도 실효 성능 격차가 두 배 가까이 벌어진다는 뜻이다.

추론과 학습은 같은 칩으로 풀 문제가 아니다

LLM 인프라를 다뤄보면 추론과 학습의 차이가 생각보다 크다는 걸 알게 된다.

구분 학습 추론
메모리 패턴 그래디언트·옵티마이저 상태 보존 필수 KV 캐시만 유지
정밀도 BF16/FP8 혼합, 안정성 우선 INT8/FP4까지 공격적 양자화
통신 부하 노드 간 all-reduce 빈번 단일 노드에서 거의 완결
지연시간 배치 처리, 분 단위 OK 토큰당 ms 단위
칩 요구사항 범용성·메모리 대역폭 처리량·전력 효율

반면, OpenAI 자체 칩이 추론을 노린다는 건 두 가지를 뜻한다. 첫째, 학습용 H100/B200 발주는 당분간 줄지 않는다. 둘째, ChatGPT·API 트래픽의 토큰 단가를 떨어뜨릴 여지가 생긴다.

두 번째가 더 흥미롭다. 추론 비용은 OpenAI 운영비의 가장 큰 항목으로 알려져 있다. 자체 칩으로 같은 토큰을 30% 싸게 만든다면, API 가격을 그만큼 내려도 마진이 유지된다. 경쟁사가 가격으로 따라오기 어려워진다.

30%라는 숫자 자체도 추정이다. 실제 수율, 전력비, 데이터센터 재설계 비용까지 다 반영하면 1세대에서 그렇게까지 안 떨어진다는 게 칩 업계의 일반적 견해다. 손익분기에 도달하는 시점이 더 늦어질수록, 자체 칩의 ROI는 회계상으로 보기 흉해진다.

프론트에서 백엔드로 넘어와서 본 LLM 인프라의 현실

이 부분은 개인 경험을 좀 섞어 쓴다. 백엔드로 넘어온 뒤 LLM 게이트웨이를 직접 다루면서 알게 된 게 셋이다.

결국, 첫째, GPU 가용성이 곧 서비스 가용성이다. Nvidia 신제품이 풀리면 일주일 안에 클라우드 단가가 흔들린다. H100 8장짜리 노드의 시간당 요금이 분기마다 다르고, 리저브드 인스턴스 슬롯은 분 단위로 잡힌다.

반면, 둘째, 모델을 바꾸는 것보다 가속기를 바꾸는 게 훨씬 어렵다. Claude → GPT 전환은 프롬프트 몇 개 손보면 된다. H100 → TPU 전환은 추론 서버 재작성이다. vLLM 같은 OSS가 가속기별 backend를 지원한다고 해도, 실제로 같은 throughput을 뽑으려면 튜닝에 사람이 한 분기씩 붙는다.

즉, 셋째, "Nvidia 락인"이라는 표현이 마케팅 용어로만 쓰이는 게 아니다. 회사가 한번 H100에 모델 서빙을 안착시키고 나면, 같은 가격에 30% 빠른 자체 칩이 나와도 옮기는 데 6~12개월이 든다. 그 사이에 Nvidia는 차세대 칩을 또 내놓는다.

이 세 가지 때문에 "OpenAI가 자체 칩 만들면 Nvidia 끝"이라는 통념이 와닿지 않는다. OpenAI 본인조차 옮기는 데 시간이 걸린다.

단기·중기·장기 시나리오는 어떻게 갈리나

발표 직후의 패닉이 가라앉으면 이런 그림이 그려진다. 개인 의견 섞인 추정이다.

게다가, 단기(2026년 하반기 ~ 2027년 상반기) — 자체 칩은 OpenAI 내부 추론 워크로드 중 일부에만 적용된다. ChatGPT 무료 티어, 사이드 기능, 임베딩처럼 비용 민감하면서 정확도 요구가 낮은 영역이 1순위로 보인다. Nvidia 발주는 거의 그대로다.

중기(2027~2028년) — 자체 칩 2세대가 나오면서 비중이 늘어난다. 학습은 여전히 Nvidia. 추론에서 자체 칩 비중이 30~50%까지 갈 수 있다. 그동안 Nvidia도 Rubin·Vera 같은 차세대를 풀고, OpenAI 외 고객 물량이 늘어난다.

장기(2029년 이후) — 여기서부터는 정말 모른다. 모델 아키텍처 자체가 또 바뀔 수 있다. Transformer 다음 구조가 자리 잡으면 ASIC은 다시 설계해야 한다. GPU는 그대로 두고 컴파일러만 갈아 끼우면 된다. 이 시점의 승자는 누가 새 구조에 빨리 적응하느냐로 갈린다.

그러니까 "Nvidia 탈출"이 아니라 "Nvidia 비중 점진적 조정"이 더 정확한 표현으로 보인다.

회사 입장에서 지금 봐야 할 신호

OpenAI 자체 칩이 우리 회사 인프라 결정에 직접 미치는 영향은 사실 거의 없다. 우리는 OpenAI API를 호출할 뿐이다. 가격 인하가 있을지를 살피면 된다.

그런데, 한 가지 짚고 갈 점은 있다. OpenAI가 자체 추론 인프라로 일부 트래픽을 옮기는 과정에서 API 응답 일관성에 변동이 생길 가능성이다. 같은 모델이라도 가속기가 바뀌면 부동소수점 연산 순서가 달라지면서 출력이 미세하게 흔들리는 경우가 보고된다. (temperature=0에서도 비결정적인 응답이 나오는 이유 중 하나다)

그래서, 체크할 신호 두 가지가 있다.

  • API 응답 메타데이터에 모델 ID나 backend 정보가 추가되는지 모니터링하기 (vLLM·SGLang은 이미 메타데이터로 노출함)
  • 같은 프롬프트·같은 seed의 응답 분산을 분기별로 추적하기 — 자동 평가 파이프라인이 있으면 baseline을 분기마다 다시 잡자

물론, 그 외엔 평소처럼 OpenAI/Anthropic/Google 세 곳을 동시에 추상화 계층 뒤로 빼두는 게 정답에 가까워 보인다. 가속기 전쟁의 승패와 무관하게, 멀티 프로바이더 구조는 어차피 필요하다.

개인 의견으로 마무리한다

반면, 개인적으로는 이번 발표가 "Nvidia 탈출 신호"보다 "AI 회사가 직접 하드웨어로 내려간 신호"로 더 의미 있게 보인다. Apple이 인텔에서 자체 실리콘으로 내려간 게 5년에 걸친 작업이었고, 그게 끝나고 나서야 진짜 차별화가 생겼다. OpenAI도 비슷한 시간표를 그릴 가능성이 있다.

반면, 당장 실행할 만한 액션은 셋이다.

  1. LLM 게이트웨이를 OpenAI 단독 의존에서 멀티 프로바이더로 한 단계 더 추상화하기
  2. 자동 평가 baseline을 분기마다 갱신하는 파이프라인 구축 — 백엔드 칩이 조용히 바뀌어도 잡아낼 수 있도록
  3. 추론 비용이 운영비의 큰 비중을 차지하면, 자체 호스팅 OSS 모델(vLLM + Llama 계열)로 옮길 워크로드를 한 번 추려보기

따라서, Nvidia 주가가 흔들렸다고 인프라 결정을 흔들 필요는 없어 보인다. 이 게임의 결과는 분기가 아니라 연 단위로 나온다.

관련 글