목차
- 변경 전 — 헤드라인만 흘려보던 시각
- 변경 후 — 후보 3개 견적을 받은 다음
- 비교 기준 — 4가지 채널
- 항목 1 — GPU 접근성: 약속과 실제
- 항목 2 — 오픈소스 도구: 가장 빠르게, 자격 없이
- 항목 3 — 크레딧과 교육: 자격이 되면 가장 직선
- 항목 4 — 락인 비용: 발표에 안 나오는 청구서
- 4인 팀 한 달 — 청구서 분해
- 결론과 다음 계획
변경 전 — 헤드라인만 흘려보던 시각
프론트엔드를 만지다가 백엔드 인프라로 넘어온 지 2년이 된다. 가장 낯선 영역이 GPU 의사결정이다. "Nvidia가 OpenAI에 1000억 달러 베팅", "B200 양산 본격화", "각국 sovereign AI 합작" 같은 헤드라인이 분기마다 떴다. 솔직히 흘려봤다. 자릿수가 너무 커서 4인 팀 청구서와는 다른 우주 이야기로 느껴졌다.
브라우저에서 돌아가던 코드가 컨테이너로 옮겨갔을 때도 비슷한 거리감이 있었다. 큰 발표는 큰 회사 일이고, 내 일은 다른 차원에서 일어난다. 그렇게 한 1년을 보냈다.
변경 후 — 후보 3개 견적을 받은 다음
팀에서 LLM 추론 인프라 결정을 직접 해야 할 일이 생겼다. 후보가 셋이었다. AWS p5 인스턴스로 풀 CUDA 스택을 짤지, CoreWeave·Lambda 같은 Nvidia 자본이 들어간 GPU 클라우드를 쓸지, 비-Nvidia 대안인 AMD MI300X를 시도할지. 견적과 한 달치 시뮬레이션을 받아보니, 발표 헤드라인 중 청구서에 실제로 닿는 항목이 의외로 적었다.
물론, 같은 시기에 "Nvidia가 AI 인프라에 또 수백억" 같은 기사가 매주 떴다. 둘을 겹쳐 보면 패턴이 보인다. 발표된 투자가 개발자에게 도달하는 채널은 크게 네 개다. GPU 접근성, 오픈소스 도구, 크레딧·교육, 락인 비용. 채널마다 도달 속도와 도달 대상이 다르고, 어떤 발표는 100% 증발한다.
비교 기준 — 4가지 채널
실제로, 후보 비교를 시작하면서 화이트보드에 그렸던 표를 다듬은 것이다. 발표 헤드라인의 자릿수가 커 보여도, 그게 한 달 청구서에 닿는 경로는 좁다.
| 채널 | 영향 방식 | 체감 속도 | 자격 조건 |
|---|---|---|---|
| GPU 가용성 | 신규 데이터센터 가동 → 시간당 단가 ↓ | 6~12개월 | 신규 계약자만 |
| 오픈소스 기여 | CUDA·TensorRT-LLM·Triton·NeMo 릴리즈 | 1~3개월 | 누구나 |
| 크레딧·교육 | Inception·DLI·Academic Grants | 즉시 | 자격 통과 시 |
| 락인 비용 | CUDA 의존성 누적, 대안 진입장벽 ↑ | 누적 | 전원 (역방향) |
그러나, 자릿수가 큰 발표(1000억 베팅, sovereign AI 합작)는 거의 1번 채널이다. 그런데 1번이 가장 느리고 가장 간접적이다. 즉시 체감되는 건 3번뿐이고, 가장 안정적인 건 2번이다. 4번은 발표에 안 나오지만 청구서에는 찍힌다.
항목 1 — GPU 접근성: 약속과 실제
Nvidia 투자 발표의 절반 이상이 GPU 캐퍼시티 쪽이다. CoreWeave 후속 라운드, Lambda 투자, Saudi HUMAIN과 G42 같은 sovereign 데이터센터 지분 인수. 발표만 보면 H100·H200이 시장에 풀려서 단가가 빠르게 빠질 것 같다.
물론, 현실은 두 갈래로 갈라진다.
하이엔드는 여전히 대기열
그러나, H200·B200 같은 최신 카드는 학습용 수요가 압도적이라 분기 단위 대기열이 흔하다(2026년 5월 기준, 주요 클라우드의 on-demand 가용성은 리전마다 편차가 큼). 여기에 들어가는 투자는 빅랩과 sovereign 프로젝트로 흡수된다. 4인 팀이 자체 70B 모델 학습을 시도할 게 아니라면, 이쪽 발표는 우리와 무관에 가깝다.
한 세대 전 카드는 단가 곡선이 내려간다
대신 H100·A100은 신규 데이터센터가 켜질 때마다 시간당 단가가 내려간다. CoreWeave H100 8장 인스턴스의 시간당 가격이 2024년 대비 체감상 30% 가까이 빠졌다(언론 보도·공시 기반, 약정 조건에 따라 다름). 추론을 돌리는 쪽에는 이 한 줄이 가장 직접적인 영향이다. 다만 기존 약정자에게는 자동 반영되지 않는다. 재계약 시점이 오기 전까지 단가 인하는 청구서에 안 찍힌다.
실제로, 발표 헤드라인의 90%는 1번 채널 이야기인데, 일반 개발자에게 도달하는 비중은 가장 작다. 자릿수와 도달률은 반비례한다고 봐도 큰 무리가 없다.
항목 2 — 오픈소스 도구: 가장 빠르게, 자격 없이
물론, 가장 즉시 체감되는 채널이다. TensorRT-LLM, Triton Inference Server, cuOpt, NeMo, CUDA 12.x 같은 도구가 분기마다 의미 있는 업데이트를 낸다. 비교 과정에서 직접 확인한 두 개만 적는다.
TensorRT-LLM과 추론 토큰 비용
LLaMA 3.1 70B를 H100 4장에서 TensorRT-LLM으로 컴파일해 돌린 결과, vLLM 0.6.0 대비 토큰당 비용이 체감상 1.3~1.5배 낮아졌다는 보고가 사내 시뮬레이션에서 나왔다. 컴파일 단계에서 OOM이 두 번 났고, --max_input_len을 4096으로 낮춰 우회했다. 이런 디테일은 공식 가이드에 자세히 안 나오고, GitHub 이슈 토론(예: TensorRT-LLM #1842 계열의 quantization 메모리 이슈)에서 패턴을 찾는다.
그런데, 흥미로운 건 이 업데이트가 Nvidia의 1000억 베팅과 독립적으로 굴러간다는 점이다. 투자 발표가 있든 없든 TensorRT 팀은 자기 페이스로 릴리즈를 낸다. 자릿수에 흔들리지 않는 채널이다.
NeMo Curator는 우리한테 안 맞았다
대규모 데이터 전처리를 GPU에서 돌리는 도구다. 결국 안 썼다. 우리 데이터 규모가 수십억 토큰이 아니라 수천만 토큰이라, CPU 파이프라인이 더 단순했다. 발표나 키노트에서 비중 있게 다뤄지지만 작은 팀에게는 과한 도구도 많다. 도달은 했지만 매칭이 안 되는 경우다.
특히, 오픈소스 채널의 핵심은, 자격 요건이 없다는 것이다. 1인 사이드 프로젝트든 4인 팀이든 똑같이 받는다. 발표 자릿수와 무관하게 가장 균등하게 분배되는 통로가 여기다.
항목 3 — 크레딧과 교육: 자격이 되면 가장 직선
Nvidia Inception 프로그램에 가입하면 DGX Cloud 크레딧, DLI(Deep Learning Institute) 무료 코스, NGC 카탈로그 우선 접근 같은 혜택이 붙는다. 등록은 무료고 자격 요건이 까다롭지 않다. 법인이고, 시리즈 C 이전이고, AI 관련 제품을 만들면 된다.
또한, :::tip 즉시 신청 가능한 것
- Nvidia Inception: 스타트업 등록 → DLI 무료 + DGX Cloud 크레딧
- DLI Self-Paced 코스: GTC 시즌(보통 3월·10월)에 무료 코스 다수 풀림
- Academic Hardware Grants: 학교 소속이면 별도 트랙으로 신청 가능
- CUDA Quantum, cuOpt 트라이얼: NGC 계정만 있으면 즉시 시작 :::
또한, 4인 팀 기준으로 한 달간 DGX Cloud 크레딧을 1500달러어치 받아 사용했고, 그대로 청구서가 그만큼 깎였다. "발표된 투자 → 청구서 차감" 경로가 가장 직선인 게 이쪽이다.
다만 이 채널은 자격이 안 되면 0이다. 1인 사이드 프로젝트, 비영리, 대학원 외부 연구자, 코로케이션 운영자에게는 사각지대가 있다. "AI 민주화"라는 발표 수사와 실제 자격 요건 사이에는 거리가 있다. 채널 자체는 빠르고 효과적이지만, 접근 자체가 선별된다.
항목 4 — 락인 비용: 발표에 안 나오는 청구서
이처럼, 비교 과정에서 가장 길게 토론한 부분이다. AMD MI300X를 후보 3번으로 넣고 견적을 받았더니, 카드 단가는 H100 대비 약 15% 낮았다. 카드 자체만 보면 매력적이다.
따라서, 문제는 코드 베이스다. 우리 의존성 트리는 이렇게 생겼다.
torch==2.4.0 # CUDA / ROCm 빌드 모두 존재
vllm==0.6.0 # ROCm 부분 지원 (모델별 누락 있음)
flash-attn==2.6.3 # ROCm 빌드 버전 뒤짐
triton==3.0.0 # CUDA 우선, ROCm 패리티 진행 중
xformers # CUDA 우선
bitsandbytes # CUDA 우선
결국, ROCm 전환 시나리오를 시뮬레이션했다. 1주 패키지 빌드, 1주 벤치마크, 1주 안정화. 여기에 운영 중 잠재 디버깅 시간을 보수적으로 잡았더니, 인력 비용이 카드 단가 차이로 회수되는 시점이 약 14개월로 나왔다. 우리 프로젝트의 운영 가시성은 그보다 짧았다. 결국 CUDA에 남았다.
락인은 발표 헤드라인의 그늘
특히, 이게 "Nvidia 투자가 개발자에게 돌아오는 것"의 어두운 쪽이다. 생태계가 커질수록 CUDA 의존성이 누적되고, 대안을 선택하는 비용이 같이 올라간다. 투자 발표에는 절대 안 나오지만 청구서에는 누적된다. 채널 1·2·3이 양의 방향이라면 채널 4는 음의 방향이고, 자릿수가 커질수록 음의 방향도 같이 커진다.
한편, 이걸 인지하고 결정하는 것과 모르고 흘러가는 것은 다르다. 비교 과정에서 가장 큰 수확이 이 인지였다.
4인 팀 한 달 — 청구서 분해
결국, 비교 결과를 한 줄로 요약하지 않겠다. 대신 한 달 운영했을 때 발표된 투자 중 우리한테 닿은 게 뭐였는지 적는다.
- 즉시 닿음: Inception 크레딧 + TensorRT-LLM 분기 업데이트 → 청구서 약 12% 절감
- 간접 닿음: H100 단가 인하 → 재계약 시점에만 반영
- 증발: B200 양산, sovereign AI 합작, 1000억 베팅 → 우리와 무관
- 역방향: CUDA 락인 누적 → 14개월 회수 구간이 사실상 닫힘
반면, 자릿수가 큰 발표일수록 우리와 멀고, 작은 자격 발표(Inception 조건 완화, DLI 무료 쿼터 추가)일수록 우리와 가깝다. 헤드라인을 읽는 우선순위를 바꾸는 게 첫걸음이다.
결론과 다음 계획
그런데, 발표 헤드라인의 자릿수를 보고 "이게 개발자한테 의미가 있나" 묻는 건 잘못된 질문이다. 자릿수가 클수록 우리와 멀다. 의미 있는 건 자릿수가 아니라 채널이다. 오픈소스 릴리즈 노트, Inception 자격 조건, 한 세대 전 카드의 단가 곡선 — 이 셋이 청구서에 실제로 닿는 통로다.
당장 실행할 수 있는 액션 세 개다.
- Nvidia Inception 등록을 30분 안에 끝낸다. 자격 통과 시 DLI 무료 코스와 DGX Cloud 크레딧이 즉시 붙는다. 청구서에 가장 직선으로 닿는 채널이다.
- TensorRT-LLM과 Triton Inference Server GitHub Releases를 RSS로 건다. 분기당 한 번은 토큰 비용에 영향 주는 최적화가 온다. 자릿수 큰 투자 발표보다 이쪽이 청구서와 가깝다.
- 신규 데이터센터 가동 발표 후 2~3개월 뒤에 클라우드 재견적을 잡는다. 단가 인하가 자동으로 반영되지 않는다. 트리거를 직접 만들어야 청구서에 찍힌다.
다음엔 H100 추론 스택에서 vLLM 0.6.0과 TensorRT-LLM을 같은 워크로드로 직접 벤치마크해, 토큰당 실비용 차이를 측정해볼 생각이다.
관련 글
- Three Inverse Laws of AI — AI 예측이 거꾸로 읽히는 세 가지 이유 – AI 발전 방향에 대한 직관이 체계적으로 빗나가고 있다. HackerNews 인기글이 제시한 세 가지 역법칙을 백엔드 전환 2년차의 실무 …
- Meta 로보틱스 스타트업 인수, AI 경쟁이 휴머노이드로 옮겨간 이유 – Meta가 로보틱스 스타트업을 인수했다는 보도가 흘러나왔다. 단일 인수가 아니라 빅테크 AI 경쟁의 무대가 데이터센터에서 물리 세계로 옮겨…
- Runway CEO가 던진 한마디 — AI 비디오는 서막, World Model이 본진이다 – Runway API 호출 중 만난 버전 에러가 General World Model 이야기로 이어졌다. 비디오 생성과 World Model의…