Intel 복귀가 예상보다 미친 이유 – AI 하드웨어 관점 TIL

목차

Intel 복귀, 정의부터 다시 잡기

"Intel 복귀"는 두 축으로 정의된다. 하나는 AI 가속기(Gaudi 라인), 다른 하나는 파운드리(Intel 18A 노드). 두 축이 동시에 돌아야 의미가 있는데, 직전까지는 둘 다 미지수였다. 새 기술에 보수적인 편이라 "또 PR이지" 정도로 흘려보냈다.

그런데, 코드 쪽에서 신호가 보이기 시작한 게 최근이다. llama.cpp 메인 브랜치에 SYCL 백엔드가 안착했고, IPEX-LLM(Intel Extension for PyTorch)도 LLM 추론을 정식 지원한다. AWS는 Gaudi 기반 인스턴스를 일반 가용 리전에서 운영 중이다. 이번 글은 그걸 만지다가 "어, 이거 진짜네"가 된 기록이다.

(개인적으로 NVIDIA에서 갈아탈 생각은 없다. 다만 비교 옵션 하나가 더 생겼다는 건 인정한다.)

오늘 한 것 – llama.cpp를 Intel iGPU에서 돌려보기

작은 LLM(Qwen 2.5 7B Q4_K_M) 하나를 로컬에서 돌릴 일이 있었다. 평소대로 CPU 추론(-ngl 0)으로 시작했는데, 노트북이 Intel Core Ultra 7 였다. 내장 GPU(Intel Arc) 쪽이 작업관리자에서 멀쩡히 노는 게 보였다. SYCL 백엔드로 빌드해봤다.

oneAPI Base Toolkit이 깔려 있으면 빌드 자체는 한 줄이다.

# Intel oneAPI 환경 활성화
source /opt/intel/oneapi/setvars.sh

# llama.cpp SYCL 빌드 (2026-05 기준 b3xxx대)
cmake -B build -DGGML_SYCL=ON \
  -DCMAKE_C_COMPILER=icx \
  -DCMAKE_CXX_COMPILER=icpx
cmake --build build --config Release -j

# 실행 - 모든 레이어를 iGPU에 올린다
./build/bin/llama-cli \
  -m qwen2.5-7b-instruct-q4_k_m.gguf \
  -p "안녕" -ngl 99

-ngl 99로 전체 레이어를 GPU에 올렸다. 체감상 CPU 추론 대비 토큰 생성 속도가 눈에 띄게 빨라졌다(환경마다 다르니 정확한 수치는 생략한다). 의외였던 건 메모리 쪽이다. iGPU는 시스템 RAM을 공유하니 VRAM 용량 제약이 사라진다. 7B 모델 정도는 노트북 RAM 32GB로도 여유 있게 돌아간다.

공식 문서에 안 나오는 디바이스 분기

GGML_SYCL_DEBUG=1 환경변수를 켜면 어떤 디바이스가 잡혔는지 로그에 찍힌다. Iris Xe와 Arc가 둘 다 잡혀 있는 노트북에서는 의도와 다른 쪽이 선택되는 경우가 있다. --main-gpu 1 같은 식으로 명시해야 원하는 쪽이 쓰인다. README 본문이 아니라 issue 트래커를 뒤져야 알 수 있는 종류의 디테일이다.

즉, 또 하나 의외였던 건 배치 사이즈다. iGPU 메모리 대역폭이 dGPU보다 좁아서, -b 512 같은 큰 배치를 주면 오히려 느려진다. 단일 요청 추론용으로는 기본값(-b 256)이 무난했다.

왜 이게 중요한가

따라서, NVIDIA 외 선택지가 "쓸 만한 수준"으로 올라온 적이 별로 없었다. AMD ROCm은 여전히 까다롭고, Apple Metal은 macOS 전용이다. Intel SYCL은 Linux/Windows 양쪽에서 돌고, 무엇보다 Core Ultra 노트북 사용자라면 추가 비용 0원이다.

Intel 복귀의 첫 번째 축인 "엣지 AI 침투"의 실체가 여기다. 데이터센터에서 H100을 못 이겨도, 이미 깔린 노트북·미니PC에 NPU·iGPU가 들어가 있으면 그 워크로드는 자동으로 Intel이 가져간다. 회사 노트북이 죄다 Core Ultra로 갈리고 있다는 사실 자체가 이미 점유율이다.

새로 알게 된 것 – Gaudi 3와 18A의 위치

데이터센터 쪽도 가격표만 보면 신호가 보인다. AWS는 Gaudi 기반 EC2 인스턴스를 운영해왔고, Intel은 Gaudi 3 단가를 "H100 대비 의도적으로 낮게" 책정한다고 공식 언급했다(출처: Intel Vision 2024 키노트, 2024-04).

항목 NVIDIA H100 SXM Intel Gaudi 3
발표 시점 2022-03 2024-04
메모리 80GB HBM3 128GB HBM2e
네트워킹 NVLink + InfiniBand 200GbE x24 (칩 내장)
단가 시장가 매우 높음 H100 대비 저렴(공식 언급)
SW 스택 CUDA SynapseAI + PyTorch

정확한 단가는 계약 조건에 따라 크게 달라지므로 숫자 직접 비교는 의도적으로 비워뒀다. (출처: 각사 데이터시트 및 공식 발표.) 메모리 용량이 H100보다 큰 점, 네트워킹이 칩에 내장된 점은 데이터시트 수준에서 확인 가능한 사실이다.

코드 측면에서 흥미로운 건 호환성이다. PyTorch 코드를 거의 그대로 돌릴 수 있다.

import torch
import habana_frameworks.torch as ht  # Gaudi 백엔드 등록
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "meta-llama/Llama-3.1-8B-Instruct"
tok = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id, torch_dtype=torch.bfloat16
).to("hpu")  # CUDA가 아니라 HPU(Habana Processing Unit)

inputs = tok("Intel comeback?", return_tensors="pt").to("hpu")
out = model.generate(**inputs, max_new_tokens=64)
print(tok.decode(out[0]))

즉, PyTorch 코드 한 줄만 바꾸면 되는 호환성은 생각보다 큰 장벽 제거다. CUDA 락인이 깨지지 않는 이유의 절반은 "재작성 비용"이었다. 그 비용이 0에 가까우면 가격 차이가 의사결정 변수로 들어오기 시작한다. 한 줄짜리 변경에 70B 모델 학습 견적이 절반 가까이 줄어든다면, 보수적인 5년차도 일단 PoC 후보로는 올린다.

18A 노드, 2026년 5월 기준 진행 상황

예를 들어, 파운드리 축은 좀 더 조심스럽게 봐야 한다. 18A(1.8nm급) 노드는 Intel이 TSMC를 추월한다고 홍보해온 카드인데, 일정이 여러 번 밀렸다. 2026년 5월 기준 공개된 정보를 정리하면 다음과 같다.

  • Panther Lake(클라이언트용, 18A 첫 양산 제품): 2025년 말 출시, 시장 공급 진행 중
  • Clearwater Forest(서버용 Xeon, 18A): 2026년 내 출시 예정
  • 외부 파운드리 고객: Microsoft 및 미국 국방부 등 공식 확인된 계약 존재
  • 수율: 공식 수치 미공개

18A는 "되면 진짜 게임 체인저"와 "안 되면 또 한 번의 약속 깨짐" 사이 어딘가에 있다고 보인다. Panther Lake가 시장에 풀린 시점부터 양산 단계에 들어간 것 자체는 사실로 확인된다. 다만 외부 파운드리 고객 확대 속도는 여전히 TSMC의 발끝이다.

AI 개발자가 파운드리를 신경 써야 하는 이유는 단순하다. 다음 세대 Gaudi(Falcon Shores), 다음 세대 Core Ultra가 모두 18A에서 나온다. AI 가속기 가격·전성비가 18A 수율과 묶여 있다. 외부 클라우드 GPU/HPU 가격이 1년 뒤 어떻게 움직일지 가늠하려면 노드 진행 상황을 같이 봐야 한다.

메모 – 다음에 확인할 것

  • IPEX-LLM로 동일 모델(Qwen 2.5 7B)을 Intel iGPU에서 INT4 양자화로 돌렸을 때 토큰/초 측정
  • Gaudi 3 단일 인스턴스로 Llama 3.1 70B fine-tuning 비용을 H100 대비 견적
  • llama.cpp SYCL 백엔드의 batch inference 안정성 – 단일 요청은 멀쩡한데 동시 요청에서 디바이스 락이 어떻게 잡히는지 확인 필요
  • Falcon Shores(차세대 Gaudi+Xeon 통합) 공식 스펙 공개 시점 추적

또한, 참고로 llama.cpp SYCL 빌드 옵션 문서는 GGML SYCL backend README에 정리돼 있고, IPEX-LLM은 intel-analytics/ipex-llm 리포지토리에 예제가 있다. 둘 다 2026년 5월 기준 활발히 업데이트 중이다.

예를 들어, 당장 손에 잡히는 액션 셋. (1) Core Ultra 노트북을 쓰고 있다면 llama.cpp SYCL 빌드를 한 번 해보고 어떤 디바이스가 잡히는지 로그로 확인. (2) AWS 결제 페이지에서 Gaudi 인스턴스 가격을 같은 리전의 H100 인스턴스와 나란히 놓고 시간당 단가만이라도 비교. (3) 사내 추론 워크로드 중 8B 이하 모델은 Intel 백엔드 PoC 후보군으로 따로 정리.

관련 글