목차
- Stanford AI Index 2025가 보여준 것
- 팀에서 직접 목격한 패턴
- AI 개발자 격차가 커리어에 미치는 영향
- 격차를 줄이려면 뭘 해야 하는가
- 리포트가 말하지 않은 것
- 실제로 팀에서 시도한 것
- 그래서 지금 당장 할 수 있는 것
[Sprint #14 Velocity Report]
Developer A: 34 story points (avg. cycle time: 1.2d)
Developer B: 17 story points (avg. cycle time: 2.8d)
Developer C: 31 story points (avg. cycle time: 1.4d)
Tool usage: A(Copilot+Claude), B(None), C(Cursor)
스프린트 리뷰에서 이 숫자를 보고 한동안 아무 말도 못 했다. 같은 팀, 같은 백엔드 스택, 비슷한 연차. 차이라고는 AI 코딩 도구 사용 여부뿐이었다. 처음에는 태스크 난이도가 달랐겠거니 했는데, 3개 스프린트 연속으로 비슷한 패턴이 반복되니까 무시하기 어려워졌다. 마침 Stanford HAI에서 AI Index Report 2025를 공개했길래 읽어봤고, 거기서 본 데이터가 팀 내부에서 목격한 현상과 너무 정확히 겹쳤다.
Stanford AI Index 2025가 보여준 것
Stanford HAI(Human-Centered Artificial Intelligence)는 매년 AI 생태계 전반을 다루는 AI Index Report를 발행한다. 2025년 4월에 공개된 8번째 에디션에서 특히 눈에 띄는 건 "AI-assisted coding" 관련 섹션이었다. 이전 에디션까지는 AI의 벤치마크 성능이나 투자 규모 이야기가 주였는데, 2025 에디션은 개발자 생산성에 관한 실증 연구를 본격적으로 다뤘다.
생산성 격차 수치
리포트에서 인용한 여러 연구를 종합하면, AI 코딩 도구를 사용하는 개발자가 그렇지 않은 개발자 대비 대략 25~55% 더 빠르게 태스크를 완료했다는 결과가 반복적으로 나온다. Microsoft Research의 GitHub Copilot 대상 실험(2024)에서는 특정 태스크에서 55.8%의 시간 단축이 관측됐고, Google의 내부 연구에서도 비슷한 방향의 결과가 나왔다.
수치 자체보다 인상적이었던 건 격차가 경험 수준에 따라 달라진다는 점이다. 주니어 개발자(경력 2년 미만)가 AI 도구를 사용했을 때 생산성 향상 폭이 가장 컸고, 시니어 개발자는 상대적으로 향상 폭이 작았다. 이건 얼핏 보면 "주니어한테 더 좋다"는 이야기 같지만, 실제 의미는 좀 다르다.
코드 품질이라는 변수
생산성이 빨라졌다고 코드가 좋아진 건 아니다. 리포트에서도 이 부분을 명시적으로 짚었다. AI가 생성한 코드의 정확도(correctness)는 태스크 복잡도에 따라 크게 갈렸다. 단순 CRUD나 보일러플레이트에서는 거의 완벽에 가까운 결과를 냈지만, 복잡한 비즈니스 로직이나 엣지 케이스 처리에서는 오히려 디버깅 시간이 늘어나는 경우도 보고됐다. 속도가 빨라진 만큼 리뷰 부담이 커진 셈이다.
팀에서 직접 목격한 패턴
리포트를 읽기 전부터 팀 내에서 이미 징후가 있었다. PR 리뷰를 하다 보면 Copilot이나 Cursor를 쓰는 개발자의 PR은 일단 양이 많다. 하루에 2~3개씩 올라오는 경우도 있었다. 반면 AI 도구를 안 쓰는 개발자는 같은 기간에 1개를 겨우 올렸다.
문제는 양만이 아니었다. AI 도구를 잘 쓰는 사람의 PR은 커밋 메시지부터 구조가 달랐다. 의미 단위로 잘 쪼개져 있고, 테스트 코드도 같이 딸려온다. 반면 AI를 안 쓰는 개발자의 PR이 꼭 나쁜 건 아닌데, 속도 차이가 누적되니까 스프린트 단위로 보면 아웃풋 격차가 눈에 보이기 시작했다.
한 가지 의외였던 건 시니어 개발자 중 한 명이 AI 도구 도입에 가장 저항이 심했다는 거다. "내가 짠 코드가 더 정확하다"는 게 이유였는데, 틀린 말은 아니었다. 실제로 그 사람의 코드 품질은 팀 내 최상위였다. 근데 속도가 문제였다. 다른 사람이 하루에 끝내는 걸 이틀 걸려서 하니까, 스프린트 플래닝에서 계속 밀렸다.
AI 개발자 격차가 커리어에 미치는 영향
채용 시장의 변화
이건 아직 데이터로 확증하기 어렵지만, 체감상 변화가 분명히 있다. LinkedIn이나 채용 공고에서 "AI 코딩 도구 경험"을 우대사항으로 넣는 곳이 늘었다. 2024년까지만 해도 "Copilot 사용 경험"은 그냥 있으면 좋은 정도였는데, 2025년 들어서는 "AI-assisted development workflow 경험 필수"로 올라온 JD를 여러 개 봤다.
Stanford 리포트에서도 이 흐름을 언급했다. AI 도구를 활용한 개발 방식이 표준화되면서, 이걸 못 쓰는 개발자는 점차 불리해질 수 있다는 전망이다. "불리해진다"가 정확히 어떤 의미인지는 해석의 여지가 있지만, 적어도 생산성 기준으로 평가받는 환경에서는 도구 활용 능력이 변수가 된다.
주니어와 시니어의 역전 현상
Stanford 리포트에서 가장 논쟁적인 부분이 여기다. AI 도구를 사용한 주니어 개발자의 아웃풋이, AI를 사용하지 않는 중급 개발자의 아웃풋을 추월하는 케이스가 관측됐다. 이건 단순히 "주니어가 더 잘한다"는 뜻이 아니다. AI가 주니어의 지식 격차를 메워주면서, 이전에는 경험으로만 쌓을 수 있었던 패턴 인식을 도구가 대체하기 시작했다는 의미에 가깝다.
개인적으로 이건 좀 위험한 방향이라고 본다. AI가 메워주는 건 "패턴 매칭"이지 "이해"가 아니다. Copilot이 제안하는 코드를 그대로 수락하는 주니어는 빠르긴 하지만, 왜 그렇게 짜야 하는지 설명하지 못하는 경우가 많다. 리포트에서도 이 부분을 "productivity와 learning의 트레이드오프"로 표현했다.
격차를 줄이려면 뭘 해야 하는가
이걸 "AI 도구를 쓰면 된다"로 단순화하면 문제의 절반만 보는 거다. 도구는 이미 거의 무료이거나 월 $10~20 수준이다. 접근성이 문제가 아니라 활용 방식이 문제다.
프롬프트가 아니라 워크플로우
Copilot을 설치하고 자동완성을 수락하는 건 AI 도구를 "쓰는" 게 아니다. 팀에서 관찰한 바로는, AI 도구를 잘 쓰는 개발자는 작업 흐름 자체가 다르다.
| 구분 | AI 도구 미숙 사용자 | AI 도구 능숙 사용자 |
|---|---|---|
| 코드 작성 | 자동완성 수락 위주 | 의도를 설명하고 생성 → 리뷰 → 수정 |
| 디버깅 | 에러 메시지 복붙 → 답변 수락 | 컨텍스트(로그, 스택트레이스, 관련 코드)와 함께 질의 |
| 설계 | 코드 먼저 생성 | 구조/인터페이스 먼저 논의 → 구현은 AI에 위임 |
| 테스트 | 생성된 코드 그대로 머지 | AI로 테스트 코드 함께 생성, 엣지 케이스 직접 추가 |
이 차이를 만드는 건 프롬프트 엔지니어링 스킬이 아니다. 소프트웨어 개발에 대한 기본 이해 — 뭘 만들어야 하는지, 어떤 품질 기준이 필요한지 — 가 있어야 도구를 제대로 부릴 수 있다.
검증 습관의 유무
AI 개발자 격차에서 가장 과소평가되는 게 이 부분이다. AI가 생성한 코드를 무비판적으로 수락하는 개발자와, 한 줄씩 읽고 의도를 확인하는 개발자의 장기적 코드 품질 차이는 크다.
팀에서 실제로 있었던 일인데, Cursor로 빠르게 API 엔드포인트를 만든 주니어의 코드에서 SQL 인젝션 취약점이 나왔다. AI가 생성한 코드에 파라미터 바인딩 대신 f-string으로 쿼리를 조합하는 부분이 있었는데, 코드 리뷰에서 잡혔다. 생성 속도는 빨랐지만, 그 PR은 결국 전면 재작성됐다.
리포트가 말하지 않은 것
Stanford AI Index는 주로 정량적 데이터를 다루기 때문에, 정성적인 영향에 대해서는 많이 다루지 않는다. 몇 가지 리포트에서 빠진 관점이 있다.
첫째, 팀 다이나믹스의 변화. AI 도구로 생산성이 올라간 개발자가 있으면, 그 사람에게 태스크가 몰리기 시작한다. "A가 빠르니까 A한테 주자"는 논리가 자연스럽게 형성된다. 이게 반복되면 특정 개발자에게 번아웃이 오고, 나머지 개발자는 점점 핵심 로직에서 멀어진다.
둘째, 코드베이스의 균질화. AI가 생성하는 코드는 학습 데이터에 기반하기 때문에, 팀 전체가 AI를 쓰면 코드 스타일이 비슷해진다. 이게 일관성 측면에서는 좋을 수 있지만, 혁신적인 접근이나 도메인 특화 최적화는 줄어드는 경향이 있다. 아직 이걸 체계적으로 연구한 논문은 못 봤다.
셋째, 학습 곡선의 왜곡. 앞서 언급한 "productivity와 learning의 트레이드오프"가 장기적으로 어떤 영향을 미칠지는 아직 데이터가 부족하다. AI 도구 없이 3년 경력을 쌓은 개발자와 AI 도구와 함께 3년을 보낸 개발자의 역량 차이를 추적한 종단 연구가 필요한데, 아직 그런 연구는 없는 것으로 안다.
실제로 팀에서 시도한 것
리포트를 읽고 나서 팀에 몇 가지를 적용했다.
AI 도구 사용을 강제하지는 않았다. 대신 주 1회 "AI 페어 프로그래밍" 세션을 만들었다. AI 도구를 잘 쓰는 개발자가 자기 워크플로우를 보여주는 시간이다. 30분짜리인데, 이게 의외로 효과가 있었다. 도구를 안 쓰던 시니어가 "이렇게 쓰는 거였어?"라고 반응한 적이 있다. 도구의 존재를 모르는 게 아니라, 제대로 된 활용 사례를 본 적이 없었던 거다.
PR 리뷰에서 AI 생성 코드 표시도 도입했다. 커밋 메시지에 [ai-assisted] 태그를 붙이도록 권장했더니, 리뷰어가 해당 코드를 더 꼼꼼히 보게 됐다. 이건 "AI 코드는 믿을 수 없다"가 아니라, 리뷰 포인트를 명확히 하자는 취지였다.
3개월 정도 지나니까 팀 내 생산성 편차가 눈에 띄게 줄었다. 체감상 30% 정도. 정확한 측정은 어렵지만, 스프린트 velocity 기준으로 보면 최하위 개발자의 포인트가 이전 대비 40% 가까이 올라왔다. 최상위 개발자는 큰 변화가 없었고.
그래서 지금 당장 할 수 있는 것
Stanford AI Index Report 2025 원문은 HAI 공식 사이트에서 무료로 볼 수 있다. 전체가 400페이지가 넘지만, Chapter 4(Economy) 섹션만 읽어도 개발자 관련 내용은 충분히 파악된다.
AI 개발자 격차는 "AI를 쓰냐 안 쓰냐"가 아니라 "어떻게 쓰냐"에서 갈린다. 당장 할 수 있는 건 세 가지다. 하나, 지금 쓰는 에디터에서 Copilot이든 Cursor든 하나를 설치하고 일주일간 실제 업무에 써본다. 둘, AI가 생성한 코드를 무조건 수락하지 말고 diff를 한 줄씩 읽는 습관을 만든다. 셋, 팀 내에서 AI 활용 사례를 공유하는 채널이나 세션을 하나 만든다. 도구 접근성보다 활용 사례 공유가 격차를 줄이는 데 훨씬 효과적이었다는 게, 3개월간 팀에서 확인한 결론이다.
관련 글
- AI 고객 인터뷰 자동화 — Listen Labs $69M 투자와 시장 변화 – AI가 고객 인터뷰를 직접 수행하는 시대가 열렸다. Listen Labs의 $69M 투자 유치를 기점으로, 기존 리서치 도구와의 차이점과 …
- OpenAI 투자자들이 Anthropic으로 움직이는 이유와 개발자 생태계 변화 – VentureBeat 보도 이후 OpenAI에서 Anthropic으로의 투자 이동 신호가 포착됐다. 영리 전환 논란, Claude의 기술적…
- AI 컨퍼런스에서 GPT 대신 Claude 쓰는 개발자가 늘어난 이유 – HumanX 2025에서 발표자 대부분이 Claude를 시연 도구로 선택했다는 보고가 이어졌다. GPT 중심이던 개발자 도구 생태계에 전환…