Mira Murati 복귀와 Anthropic IPO, AI 리더 따라 갈아타면 손해다

목차

Mira Murati 복귀 신호와 Anthropic IPO 준비 보도가 같은 주에 뜨자, 팀 디스코드에 Thinking Machines나 차세대 프로바이더로 갈아타자는 말이 다시 올라왔다. 지난 18개월 동안 LLM 프로바이더를 두 번 옮겨본 끝에 남은 사실은, 새 프로바이더 도입 비용이 모델 성능 차이를 매번 압도했다는 것이다.

AI 리더 따라가야 한다는 통념

업계 관찰자들이 반복해서 외치는 공식이 있다. OpenAI에서 떠난 핵심 인물이 만든 새 회사가 다음 챔피언이다. Ilya Sutskever가 SSI(Safe Superintelligence)를 세웠을 때 그랬고, Mira Murati가 Thinking Machines Lab으로 옮겼다는 보도(2025년 초)가 났을 때도 그랬다. 2026년 들어서는 Murati 동향과 Anthropic IPO 준비 보도가 거의 같은 주에 터지면서 "지금이 갈아탈 타이밍"이라는 분위기가 다시 올라왔다.

따라서, 이 통념의 뼈대는 단순하다. AI 모델 품질은 결국 사람에서 나오니까, 사람이 옮긴 회사가 다음 SOTA를 낸다는 가정이다. 거기에 IPO 준비 = 가격 인상 = 지금 빠져나가야 한다는 비용 논리가 얹힌다. SNS에서 굴러다니는 "OpenAI 엑소더스 명단" 같은 짤이 이 가설을 시각적으로 뒷받침한다.

반면, 3년차 백엔드 입장에서 이 통념을 18개월 만에 두 번 따라봤다. 결과는 두 번 다 손해였다. (여담이지만 이 정도 반복이면 통념이 아니라 함정이다)

2026년 6월 기준 알려진 것과 모르는 것

먼저 사실관계 정리. 2026-06-07 시점에서 공개적으로 보도된 신호는 다음과 같다.

이처럼, 알려진 것:

  • Mira Murati 관련 동향 보도 — 공개 활동 재개 신호가 잡혔다는 수준의 기사
  • Anthropic이 IPO 준비 단계에 들어갔다는 보도 — 구체적 일정·밸류에이션·인수자 미확정
  • Thinking Machines Lab이 2025년 초 설립되어 1년 넘게 운영되고 있다는 사실

결국, 모르는 것:

  • Thinking Machines Lab의 첫 상용 API가 언제 풀릴지, 어떤 모델 패밀리일지
  • Anthropic IPO 이후 토큰 단가가 오를지, 내릴지, 그대로일지
  • 두 사건이 6개월 안에 실제 API 가용성·SLA·가격에 미칠 영향
  • 신규 모델의 컨텍스트 윈도우, 도구 사용 능력, 안전 가드레일 강도

또한, 이 차이가 중요한 이유는, "지금 갈아타야 한다"는 주장이 사실은 모르는 영역에 베팅하는 거라서다. 보도 한 줄에서 인프라 결정까지 가는 거리가 너무 멀다. 가설은 가설이고, 운영 중인 시스템은 운영 중인 시스템이다.

모델 품질은 리더 한 명에서 안 나온다

그런데, 가장 큰 오해는 AI 회사의 모델 품질이 특정 리더의 머릿속에서 나온다는 가정이다. 실제로는 그렇지 않다. 모델 품질을 결정하는 변수는 최소 네 가지가 얽혀 있다.

컴퓨트와 데이터 파이프라인

H100·H200급 클러스터 수만 대 단위, 그리고 그걸 안정적으로 굴리는 스케줄러·체크포인트·관측 인프라가 진짜 자산이다. 신생 회사가 시드/시리즈 A 단계에서 이 규모를 단기에 따라잡기는 어렵다. Thinking Machines Lab이 어떤 컴퓨트 파트너십을 맺었는지 자세한 내용이 공개되지 않은 상태에서, 모델 품질을 예단할 근거는 빈약하다.

평가셋과 안전 파이프라인

반면, OpenAI도 Anthropic도 내부 평가셋과 RLHF·RLAIF 파이프라인을 몇 년 갈고닦았다. 이 자산은 그대로 옮겨가는 게 아니다. 신생 회사는 처음부터 만든다. 보통 첫 1년은 벤치마크 숫자가 출렁이고, 안전 평가는 더 오래 걸린다. 첫 모델이 나와도 "엔터프라이즈 SLA가 붙기까지" 다시 6~12개월이 더 걸리는 사례가 일반적이다.

사람이 옮겨도 코드는 안 옮긴다

결국, 가장 자주 잊는 사실. 사람은 IP를 들고 못 나간다. 머릿속 지식과 일하는 방식만 옮겨간다. 그래서 결과물이 비슷해 보이는 데까지 6~18개월이 걸린다는 게 업계의 일반적 관찰로 보인다(작성 시점 기준 공개된 사례들의 경향).

조직 문화와 의사결정 속도

마지막으로 묶기 어려운 변수. 분기마다 평가 방식, 안전 가드레일 정책, 출시 결정이 누적된 결과가 모델의 최종 성격을 만든다. 리더 한 명이 바뀌어도 이 문화가 자리잡는 데는 시간이 더 걸린다. 새로 합류한 직원들이 손발을 맞추고, 평가 기준이 통일되고, 인시던트 대응 플레이북이 쌓이는 데 1년 이상이 든다.

프로바이더 교체의 진짜 비용

여기가 핵심이다. 모델 품질이 비슷해도 갈아타기는 손해인 경우가 많다. 이유는 마이그레이션 비용이 거의 항상 과소평가되기 때문이다.

체감상 가장 크게 먹는 항목은 셋이다.

마이그레이션 항목 사전 예상 실제 소요(체감) 주요 원인
프롬프트 재튜닝 1주 3~5주 시스템 메시지 처리, 포맷 응답, 거절 패턴 차이
토큰 카운트·비용 재계산 1일 1~2주 토크나이저가 달라 같은 텍스트도 토큰 수가 10~30% 변동
에러 핸들링·리트라이 1일 1주 SDK별 에러 클래스 구조가 달라서 기존 백오프 로직 재작성

특히, 여기에 평가셋 다시 돌리고, 캐시 정책 재설계하고, 비전·구조화 출력·툴콜링 같은 모델별 강점 기능 재검토까지 더하면 한 분기는 통째로 날아간다. 사람 한 명 인건비를 분기당 환산해 보면 모델 가격 차이가 메우는 수준을 넘는 경우가 흔하다.

게다가 갈아탄 다음 6개월 안에 또 새 챔피언이 나오면, 그때 또 갈아타야 한다는 압박이 생긴다. 그 압박을 두 번 받아본 결과는 별로 좋지 않았다. 매 분기 마이그레이션을 반복하면 신규 기능 개발이 멈춘다. 백로그가 안 줄어드는 게 가장 큰 비용이다.

멀티 프로바이더는 해결책이 아니다

이쯤 되면 "그러면 추상화 레이어 깔고 멀티 프로바이더로 가면 되지 않냐"는 반박이 나온다. 직관적으로 맞는 말 같지만, 실제로 해보면 추상화가 또 다른 부채가 된다.

LangChain, LiteLLM 같은 라이브러리를 깔면 호출 인터페이스는 통일된다. 거기까지가 장점이다. 문제는 각 모델의 차별점이 추상화 아래에서 사라진다는 것이다.

따라서, :::tip 추상화 레이어를 깔면 잃는 것

  • Anthropic의 프롬프트 캐싱(2024년 출시, 작성 시점 기준 안정화) → 헤더 직접 다루기 어려움
  • OpenAI의 구조화 출력(JSON Schema 기반, 2024-08 추가) → 공통 인터페이스로는 호출 불편
  • 각 프로바이더의 비전 입력 포맷 차이 → 추상화 어댑터가 늘 한 박자 뒤처짐
  • 토큰 사용량 정확 측정 → 어댑터 통계와 실제 청구가 어긋남
  • 모델별 도구 사용(tool_use) 스키마 → 공통화하면 모델 강점이 깎임 :::

결국 추상화 위에 또 escape hatch를 뚫어야 하는데, 그 순간 추상화의 의미가 절반 사라진다. 두 번째 마이그레이션에서 이 함정에 빠졌다. LiteLLM으로 통합한 뒤에도 핵심 워크로드는 Anthropic SDK를 직접 호출하고, 보조 워크로드만 LiteLLM을 거치는 이상한 구조로 끝났다. 모니터링 대시보드도 두 벌이 필요했다.

게다가, 추상화 레이어가 쓸모없다는 말은 아니다. 비핵심 워크로드 — 백오피스용 요약, 내부 도구의 임시 분류, 일회성 데이터 정제 — 같은 곳에서는 충분히 가치가 있다. 다만 핵심 사용자 경험을 책임지는 호출까지 추상화 아래에 넣으면 거의 매번 후회한다.

그래서 지금 무엇을 할 것인가

특히, 뉴스를 따라 인프라를 바꾸는 대신, 뉴스가 와도 흔들리지 않는 구조를 미리 만드는 쪽이 낫다. 당장 실행할 만한 행동은 셋으로 좁힌다.

이처럼, 첫째, LLM 호출 경계를 비즈니스 로직에서 분리한다. 서비스 레이어 안에 LLMClient 같은 얇은 어댑터 하나만 두고, 비즈니스 코드는 그 어댑터만 본다. 추상화 레이어 라이브러리를 깔라는 뜻이 아니다. 직접 만든 30~50줄짜리 래퍼면 충분하다. 이렇게 해두면 다음 갈아타기가 와도 영향 범위가 어댑터 한 파일로 줄어든다.

예를 들어, 둘째, 새 프로바이더는 비핵심 워크로드에서 최소 6개월 관찰한다. 백오피스, 사내 도구, 분석용 배치 같은 곳에 먼저 깔고 응답 품질, 가용성, 인시던트 빈도를 데이터로 쌓는다. 6개월치 데이터 없이 메인 트래픽을 옮기는 건 보도 한 줄에 회사 SLA를 거는 것과 같다.

게다가, 셋째, 분기마다 "교체 비용 추정치"를 업데이트한다. 한 줄짜리 스프레드시트라도 좋다. 컬럼은 프롬프트 수, 평가셋 크기, 추정 마이그레이션 인일(person-day), 예상 비용 절감. 이 숫자를 분기마다 갱신하면, 다음에 또 "갈아타자" 소리가 나올 때 감정 대신 숫자로 답할 수 있다.

개인적으로는, Murati 복귀든 Anthropic IPO든 6개월은 더 지켜보고 비핵심 워크로드 한 곳에서만 실험해 보는 게 적당한 거리 같다.

관련 글