Cerebras IPO 108% 급등, AI 칩 투자 거품을 판단하는 5가지 기준

목차

Cerebras WSE-3는 12인치 실리콘 웨이퍼 한 장을 자르지 않고 통째로 하나의 AI 가속기로 만든 ‘웨이퍼 스케일 엔진’이다. 표준 GPU가 다이 수십 개를 한 보드에 묶는 방식이라면, WSE-3는 그 보드 한 장을 통째로 단일 다이로 굳혀버린다. 이 회사가 2026년 IPO 첫날 공모가 대비 108% 상승했다는 소식이 알려지자, 추론 워크로드 비용에 시달리던 엔지니어링 팀들 사이에서 다시 한번 NVIDIA 대안 논의가 불붙었다.

그런데, 문제는 주가가 회사의 기술 우위를 그대로 반영하느냐다. 3년차로 백엔드에서 LLM 추론 인프라를 다루는 입장에서 보면, 칩 회사의 IPO 흥행과 실제 도입 가능성은 완전히 다른 축이다. 토큰당 비용, 모델 호환성, 운영팀 학습곡선, 공급 안정성을 따져보면 IPO 첫날 두 배 뛴 주가가 "기술이 그만큼 압도적"이라는 뜻은 아닌 경우가 많다.

물론, 이 글에서는 WSE-3, NVIDIA H100/B200, Groq LPU를 동일한 기준으로 비교하고, Cerebras IPO 급등이 가리키는 것과 실무 도입 시점에 무엇을 봐야 하는지 정리한다.

IPO 108% 급등의 배경 — 시장이 본 것은 칩이 아니다

결국, 2026년 들어 미국 증시에서 AI 인프라 관련 IPO는 사실상 멈춰 있었다. SaaS 마진과 비교했을 때 하드웨어 매출 의존이 큰 회사들은 멀티플이 깎였고, 몇몇 후보는 IPO 일정을 미뤘다. 이 흐름을 깬 게 Cerebras다.

흥미로운 건 가격 발견 과정이다. 공모가 대비 108% 상승했지만, 직전 사모 라운드 평가 대비로 보면 상승률이 더 완만한 것으로 알려져 있다. 즉 IPO 첫날 가격은 사모 시장의 마지막 평가에 어느 정도 수렴한 뒤 추가 프리미엄이 붙은 형태로 해석된다. "공모가가 보수적이었다"는 해석이 더 정확할 수 있다는 평가가 많다.

추론 시장으로의 무게 이동

지난 2년간 NVIDIA 매출 구조에서 두드러진 건 ‘학습용 GPU’에서 ‘추론용 GPU’로의 무게 이동이다. 학습은 한 번 끝나고 나면 그만이지만, 추론은 서비스가 살아 있는 동안 매일 돌아간다. 토큰당 비용이 운영의 핵심 변수가 되면서, 학습 단계에서 NVIDIA 외 선택을 고려하지 않던 팀들도 추론에서는 Groq, Cerebras, AMD MI300X를 검토하기 시작했다.

예를 들어, Cerebras의 IPO 자료에서 강조된 것도 학습 점유율이 아니라 추론 매출 성장률이다. 시장이 본 것은 칩의 절대 성능이 아니라 "NVIDIA 의존도가 줄어들 수 있다"는 가능성이다. 이게 첫날 두 배 가격을 만든 1차 동력으로 보인다.

거품 신호로 자주 거론되는 3가지

또한, 투자 분석 리포트와 엔지니어링 커뮤니티에서 자주 언급되는 거품 신호는 비슷한 셋이다. 첫째, 매출 대비 멀티플이 통상의 반도체 기업 대비 매우 높게 형성되어 있다. 둘째, 매출의 절반 이상이 단일 대형 고객에서 발생한다는 보도가 반복돼 왔다. 셋째, 발표된 추론 성능 수치가 특정 모델, 특정 배치 사이즈에 한정된 조건이다.

즉, 이 세 가지가 동시에 거론되는 건 칩 초기 회사의 거품 논쟁에서 흔한 패턴이긴 하다. 그렇다고 자동으로 "거품이다"라고 단정할 수 있는 건 아니다. NVIDIA도 2016~2018년에 비슷한 회의론을 받았지만 결과적으로는 시장 기대를 추월했다. 거품 논쟁이 곧 결론은 아니라는 뜻이다.

비교 기준 — AI 가속기를 평가할 때 봐야 할 5가지

칩 회사를 비교할 때 마케팅 자료의 TFLOPS나 메모리 대역폭만 보면 실무 의사결정과 어긋난다. 추론 인프라를 운영해본 입장에서 정리한 기준은 다섯이다.

이처럼, 1) 토큰당 비용(USD per million tokens): 모델 추론에서 가장 직관적인 비용 단위다. 동일 모델, 동일 컨텍스트 길이, 동일 처리량에서 비교해야 의미가 있다. 마케팅 자료의 "최대 처리량"은 보통 컨텍스트 길이가 짧고 배치가 큰 베스트 케이스라 실제 트래픽에서 그대로 나오지 않는다.

2) 첫 토큰 지연(Time to First Token, TTFT): 사용자가 요청을 보내고 응답이 시작되기까지의 시간. 챗봇이나 에이전트 서비스의 체감 품질을 가장 크게 좌우한다. 같은 처리량이라도 TTFT 차이가 200ms와 600ms이면 사용자 인지 품질이 완전히 다르다.

3) 단일 노드 모델 한계: 메모리 용량에 따라 노드 한 대에 올릴 수 있는 모델 크기가 결정된다. 8x H100 노드 한 대로 Llama 3 70B 추론이 무난한지, 405B는 가능한지가 운영의 큰 차이를 만든다. 다중 노드 분산은 통신 오버헤드를 늘리고 장애 포인트를 증가시킨다.

실제로, 4) 생태계와 도구 체인: PyTorch, vLLM, TensorRT-LLM, SGLang 같은 추론 프레임워크 지원 수준. 운영팀이 며칠 만에 모델을 올릴 수 있는지가 학습곡선의 핵심이다. 칩 자체가 빠르더라도 도구 체인이 빈약하면 도입 비용이 커진다.

게다가, 5) 공급/리드타임: H100을 발주해도 받기까지 수개월이 걸리던 시기를 거쳤다. 칩이 빠르냐만큼 "지금 살 수 있느냐"가 의사결정 변수다. SaaS 형태로 추론 API만 쓸 거라면 이 변수는 약해진다.

예를 들어, 이 다섯을 똑같이 적용해서 세 가속기를 비교해보자.

WSE-3, H100, Groq LPU — 항목별 비교

이처럼, 세 가속기는 설계 철학이 서로 다르다. 직접 비교가 어렵지만, 추론 워크로드라는 동일 사용처를 놓고 보면 차이가 드러난다.

항목 Cerebras WSE-3 NVIDIA H100 (8-GPU 노드) Groq LPU
다이 면적 약 46,225 mm² (단일) 약 814 mm² × 8 약 725 mm² (단일)
온칩 메모리 44GB SRAM (단일 다이) 80GB HBM3 × 8 230MB SRAM × 다수
발표 시점 2024년 3월 2022년 (Hopper) 2023년
주력 워크로드 학습/대형 추론 학습+추론 범용 저지연 추론 특화
생태계 성숙도 자체 SDK 중심, PyTorch 백엔드 PyTorch/vLLM 등 사실상 표준 OpenAI 호환 API 중심
단일 노드 모델 한계 단일 시스템에 매우 큰 모델 적재 70B급은 8 GPU 분산 다수 LPU 클러스터링 필요
도입 형태 SaaS API + 시스템 판매 칩/노드/클라우드 모두 주로 SaaS API

물론, 표만 보면 WSE-3가 우월해 보이지만, 실제 도입에선 다른 그림이 나온다.

학습/대형 모델 추론 — Cerebras의 영역

그러나, 웨이퍼 스케일 설계의 핵심은 노드 간 통신을 없앤다는 점이다. 일반적인 8x H100 노드에서 70B 모델 추론을 돌리면 GPU 간 NVLink 통신과 PCIe 병목이 latency를 잠식한다. WSE-3는 단일 칩 위에서 모델 파라미터를 모두 활성화할 수 있어, 통신 비용이 사실상 0에 가깝다.

즉, Cerebras가 공개한 데모에서 Llama 3.1 70B 인퍼런스가 초당 수천 토큰 수준의 처리량을 보였다는 자료가 있다(출처: Cerebras Inference 발표, 2024년 8월). 동일 모델을 H100 8-GPU 노드에서 vLLM으로 돌렸을 때의 일반적 처리량 대비 큰 차이라는 게 보도의 요지였다. 이 수치는 특정 배치 크기와 컨텍스트 길이 조건에서의 측정이라, 실제 트래픽 패턴에서 그대로 재현된다고 가정하기는 어렵다.

범용성과 생태계 — NVIDIA의 영역

특히, H100의 가장 큰 강점은 칩 성능이 아니라 "어디서나 돌아간다"는 점이다. PyTorch 모델을 vLLM이나 TensorRT-LLM에 올리는 절차는 거의 표준화돼 있고, AWS, GCP, Azure, Oracle, Lambda Labs 어디서도 같은 절차로 돌아간다. 모델 라인업이 바뀌어도 어댑터 한두 개만 새로 쓰면 끝나는 경우가 많다.

Cerebras는 자체 SDK인 Cerebras SDK와 PyTorch 백엔드를 제공하지만, vLLM이나 SGLang 같은 추론 서버 표준의 핵심 기여는 아직 NVIDIA 쪽이 압도적이다. 운영팀이 추론 서버를 새로 배우고 디버깅 노하우를 쌓는 비용은 칩 가격표에 안 적혀 있지만 무시할 수 없다. 팀에서 추론 백엔드를 골랐던 경험을 떠올려보면, 칩이 빠른지보다 "장애 났을 때 누가 빠르게 고치냐"가 결국 결정을 좌우했다.

저지연 추론 — Groq의 영역

Groq LPU는 학습은 안 한다. 추론만 한다. SRAM 기반의 결정론적 실행 모델이 핵심이고, 첫 토큰 지연이 매우 짧다. OpenAI 호환 API를 제공해서 도입 장벽이 낮다는 게 보도의 강조점이다.

특히, 작성 시점(2026년 5월) 기준 Groq 자체 발표에 따르면 Llama 3 70B에서 초당 수백 토큰 단위의 처리량을 보인다고 알려져 있다. Groq는 클라우드 서비스 중심이고, 온프레미스로 LPU를 직접 들이는 사례는 흔치 않다. 추론을 외부 API로 위탁할 수 있는 팀에 맞는 모델이다.

토큰당 비용 — 진짜 의사결정 기준

즉, 벤치마크 수치보다 운영팀에 더 와닿는 건 토큰당 비용이다. Llama 3 70B나 405B 같은 모델을 동일 처리량으로 돌릴 때의 USD/1M tokens를 보면 도입 결정이 빨라진다.

즉, :::stats

  • NVIDIA H100 자가 운영: 8-GPU 노드 임대 시 시간당 약 $30~$40, 70B 모델 처리량 가정 시 1M 토큰당 대략 $20~$25 수준으로 회자된다
  • Groq 외부 API: 70B 모델 기준 1M 토큰당 약 $0.6~$0.7 (Groq 공식 가격표, 2026년 5월 기준)
  • Cerebras Inference API: 70B 모델 기준 1M 토큰당 약 $0.6~$0.85 (Cerebras 공식 가격표, 2026년 5월 기준) :::

그래서, 수치만 보면 외부 API가 압도적이지만, 비용 비교는 단순하지 않다. 하루 토큰 사용량이 일정 임계점을 넘어가면 자가 운영이 더 싸지는 구간이 생긴다. 일반적으로 월간 토큰 사용량이 수십억 토큰 단위가 되면 자가 운영이 검토 대상이 된다고 회자된다.

외부 API가 유리한 구간

월 토큰 사용량이 적거나 변동이 큰 서비스라면 외부 API가 거의 항상 유리하다. 8-GPU H100 노드는 사용량이 0인 시간에도 시간당 비용이 빠져나가지만, API는 호출한 만큼만 낸다. Cerebras와 Groq 모두 OpenAI 호환 API로 진입 장벽을 낮춰뒀기 때문에, 기존 OpenAI 클라이언트 코드의 base_url과 model 이름만 바꿔도 일단 호출은 된다.

특히 트래픽 스파이크가 큰 서비스, 마케팅 이벤트성 트래픽이 많은 서비스, 모델을 실험적으로 자주 바꾸는 팀에게는 외부 API가 거의 단일 정답에 가깝다. 자가 운영 노드의 빈 시간 비용이 너무 크기 때문이다.

자가 운영이 유리한 구간

실제로, 월 토큰 사용량이 수십억 토큰을 안정적으로 넘고, 컨텍스트 길이가 긴(예: RAG 32K 이상) 워크로드라면 자가 운영이 검토 대상이 된다. 이 구간에서도 칩 선택은 모델 크기에 따라 갈린다. 70B까지는 H100 노드가 표준이고, 405B 같은 대형 모델로 가면 Cerebras 시스템이나 더 큰 NVIDIA 클러스터 둘 다 검토 대상이 된다.

데이터 주권이나 컴플라이언스 이슈로 모델 가중치를 외부에 못 보내는 환경이면 자가 운영 외 선택지가 없다. 금융, 의료, 공공 부문이 대표적이다. 이 경우 칩 선택은 결국 "PyTorch 호환성 + 도구 체인 성숙도"로 수렴하는 경우가 많고, 현재 그 점에서 NVIDIA가 우위인 건 부정하기 어렵다.

거품 논쟁 — IPO 가격이 본질을 가린다

다시 IPO 이야기로 돌아가자. Cerebras의 IPO 첫날 108% 급등은 기술적 성취 자체보다는 "공급자 다변화에 대한 갈증"이 가격에 반영된 결과로 보는 시각이 많다. 시장은 칩의 성능표가 아니라 "NVIDIA 의존도를 낮추고 싶다"는 고객 수요를 사고 있다.

따라서, 이 점은 양면적이다. 실제로 다변화 수요가 매출로 전환되면 회사의 가치는 정당화된다. 반대로 다변화가 "있으면 좋지만 비용 들이면서까지는 안 한다"의 영역에 머무르면 매출 곡선이 시장 기대에 못 미친다.

단일 고객 집중도라는 변수

IPO 자료에서 가장 자주 거론된 우려는 매출의 절반 이상이 한 고객에 집중돼 있다는 점이다. 칩 회사 초창기에 흔한 현상이긴 하지만, 멀티플 40배가 정당화되려면 고객군이 빠르게 분산돼야 한다. 클라우드 사업자들이 자체 AI 칩(Trainium, TPU, Maia)을 키우고 있는 상황에서 신규 대형 고객 확보가 쉽지 않다는 게 회의론의 핵심이다.

같은 우려는 Groq에도 부분적으로 적용된다. 추론 SaaS 시장은 가격 경쟁이 빠르게 격화하고 있고, 외부 API 단가가 1M 토큰당 $0.x 단위로 떨어지는 중이다. 이 흐름에서 마진을 어떻게 지키느냐가 모든 신생 AI 칩 회사의 공통 숙제로 보인다.

"지금 사도 되느냐"와 "지금 도입해도 되느냐"

투자 관점에서 Cerebras 주식을 사느냐와, 엔지니어링 팀이 Cerebras 시스템을 도입하느냐는 다른 결정이다. 주가는 6개월 안에도 크게 변하지만, 칩 도입은 2~3년 단위의 운영 결정이다. 주가가 거품이라고 해서 칩이 별로라는 뜻은 아니고, 칩이 좋다고 해서 주식이 저평가됐다는 뜻도 아니다.

엔지니어링 입장에서 IPO 뉴스가 도움이 되는 부분은 한 가지다. "이 회사가 단기간에 망해서 우리 추론 인프라가 공중분해되지는 않을 것"이라는 공급 안정성 신호다. IPO 자금이 충분히 들어왔다면 최소 3~5년 운영은 가능한 수준의 현금 확보로 보는 게 일반적이다.

언제 Cerebras를 쓰고 언제 NVIDIA를 쓸지 — 판단 기준

평가 기준을 정리하면 도입 결정은 의외로 단순해진다. 자신의 워크로드가 아래 중 어디에 속하는지 보면 된다.

즉, Cerebras Inference API가 맞는 경우: 70B 이상의 큰 모델을 외부 API로 호출하고 싶은데 OpenAI나 Anthropic API의 모델 라인업으로 부족한 경우. 초당 처리량(TPS)이 핵심 KPI인 경우(긴 응답을 빠르게 생성). 외부 API에 가중치를 호출하는 게 컴플라이언스상 문제없는 환경.

이처럼, NVIDIA H100/B200 노드가 맞는 경우: PyTorch + vLLM/SGLang/TensorRT-LLM 기반 운영팀이 이미 자리 잡은 경우. 모델 종류와 추론 패턴이 다양해서 범용성이 필요한 경우. 월 토큰 사용량이 충분히 크고 안정적이라 자가 운영 ROI가 나오는 경우. 학습과 추론을 같은 하드웨어 풀에서 돌리고 싶은 경우.

한편, Groq API가 맞는 경우: 챗봇이나 에이전트의 첫 토큰 지연(TTFT)이 사용자 경험을 좌우하는 경우. 외부 API로 추론을 위탁해도 무방하고, 모델 라인업이 Groq에서 충분히 커버되는 경우. 비용 단가가 낮은 외부 추론이 우선순위인 경우.

한편, 이 기준 외에 "회사의 공급 안정성"도 봐야 한다. Cerebras는 IPO로 자금이 들어왔고 단기적으로 안정성이 올라간 것으로 보인다. 매출 집중도와 클라우드 사업자들의 자체 칩 확장은 중장기 변수로 남아 있고, 이건 다음 1~2년 분기 매출 흐름에서 답이 나올 문제다.

결론을 대신해 — 지금 해볼 만한 3가지

세 가지를 권한다.

또한, 첫째, 자신이 운영하는 서비스의 월간 토큰 사용량과 평균 컨텍스트 길이를 측정한다. 외부 API와 자가 운영의 분기점이 어디인지 모르면 칩 회사 IPO 뉴스가 그냥 노이즈로만 보인다. 단순 로그 집계로 1시간 안에 뽑을 수 있는 수치다.

둘째, Llama 3 70B나 비슷한 크기 모델을 Cerebras Inference, Groq, NVIDIA 기반 외부 호스팅(예: Together, Fireworks)에서 동일 프롬프트로 호출해보고 TTFT/TPS/응답 품질을 직접 표로 정리한다. 1~2시간이면 끝나는 작업이고, 마케팅 자료보다 본인 워크로드에 훨씬 가깝다.

셋째, 현재 NVIDIA 의존 구간을 다이어그램으로 그려둔다. 학습, 임베딩 생성, 메인 추론, 보조 추론, 평가 파이프라인 중 어느 단계가 H100에 묶여 있는지를 시각화해두면, 향후 다변화 결정이 빨라진다. Cerebras IPO가 시사하는 큰 흐름은 결국 "공급자 다변화"고, 그 흐름에 미리 준비한 팀이 운영비를 먼저 줄인다.

참고로 일정 시점의 가격이나 매출 집중도 수치는 분기마다 빠르게 갱신된다. 이 글의 숫자들도 2026년 5월 기준이고, 6개월 뒤엔 또 달라져 있을 가능성이 높다. 출처는 Cerebras 공식 IR 자료와 Cerebras Inference 발표(2024-08), Groq 공식 가격표를 그때그때 다시 확인하는 게 안전하다.

관련 글