"생산성 높인다더니 업무시간 더 늘었다"…AI 코딩 툴, 그래도 찾는 이유는?

인공지능(AI) 코딩 도구가 소프트웨어(SW) 개발을 더 빠르게 만들어 줄 것이란 기대와 달리 오히려 개발 속도를 늦출 수 있다는 연구 결과가 나왔다.

비영리 연구단체 모델 평가 및 위협 연구(METR)는 'AI가 숙련된 오픈소스 개발자의 생산성에 미치는 영향'을 실험한 결과를 14일 공개했다.

이번 연구는 실제 오픈소스 프로젝트에 다년간 기여한 고숙련 개발자 16명을 대상으로 진행됐다. 이들은 평균 수천 건 이상의 커밋을 기록했고 기여한 프로젝트의 총 별점이 2만 개를 넘는 등 실력을 입증받은 인물들이었다.

숙련된 개발자들이 AI개발 도구를 사용한 결과 오히려 생산성이 하락했다(이미지=METR)

METR은 이들에게 총 246건의 실제 개발 작업을 맡기고 인공지능 보조 도구를 사용했을 때와 사용하지 않았을 때의 작업 속도를 비교했다.

실험에 활용된 AI 도구는 대표적으로 '커서 프로'라는 AI 통합 개발 환경과 앤트로픽의 대형 언어모델인 클로드 3.5와 3.7이었다. 모두 GPT-4와 함께 최상위 수준으로 평가받는 코딩 특화 모델들이다.

비교 결과 개발자 대부분은 작업 전에 AI 도구를 통해 24% 정도 업무 속도가 빨라질 것으로 기대했다. 작업을 마친 뒤에도 개발자들은 체감상 "작업이 약 20% 빨라졌다"고 응답했다.

하지만 결과는 예상 밖이었다. AI 코딩 도구를 활용했을 때 개발자들의 작업 시간은 평균 19% 증가했다. AI가 작업을 도와준 것이 아니라 오히려 방해가 됐지만, 개발자들은 스스로 생산성이 높아졌다고 느낀 것이다.

기대했던 성능 향상이 나타나지 않은 이유에 대해 연구진은 AI 도구 사용이 개발 과정에 여러 추가 부담을 유발했기 때문이라고 분석했다.

실험에 사용된 작업은 단순한 코드 작성이 아니라, 실제 개발 현장에서 자주 발생하는 과제들로 구성됐다. 예를 들어 기존 코드의 버그 수정, 새로운 기능 추가, 코드 리팩터링 등 현실적인 난이도와 맥락을 요구하는 작업이 중심이었다. 각 작업은 평균적으로 2시간 정도 소요됐다.

개발자들은 AI에게 문제를 설명하기 위한 프롬프트를 작성해야 했고 AI가 응답할 때까지 기다려야 했다. 이어 나온 AI의 코드 출력을 검토하고, 수동으로 정제하거나 코드베이스에 맞게 수정하는 과정이 필요했다.

이처럼 프롬프트 작성, 응답 대기, 결과 정제 등 'AI를 다루기 위한 시간'이 전체 작업의 약 9%를 차지했다. 특히 AI가 제안한 코드 중 실제로 채택된 비율은 평균 44%에 불과했다. 절반 이상은 아예 쓰이지 않았거나 전면 수정이 필요했다는 의미다.

AI가 코드의 전반적인 방향을 제시하는 데는 유용했지만, 세부 구현에서는 코드베이스 특유의 문맥을 제대로 반영하지 못한 점도 문제로 지적됐다. 실제 코드 프로젝트는 변수명, 함수 구조, 네이밍 규칙 등 수많은 고유한 규칙과 패턴을 따르는데, AI는 이러한 세세한 부분을 파악하는 데 한계가 있어 사용자가 직접 수정해야 하는 부분이 많아지는 결과로 이어졌다.

하지만 AI가 전적으로 무용한 것은 아니다. 개발자들은 AI를 사용할 때 '작업이 덜 힘들게 느껴졌다', '심리적인 피로도가 낮았다'는 평가를 내렸다.

연구 결과를 본 뒤에도 대부분의 개발자들은 "앞으로도 AI 도구를 계속 사용할 것"이라고 밝혔다.

반복적이고 단순한 구현 작업을 스스로 하는 것보다 AI가 어느 정도 초안을 만들어주고 그 결과를 수정하는 편이 더 낫다고 느꼈다는 설명이다. 작업 시간이 늘었음에도 생산성이 높아졌다고 느낀 이유 역시 이러한 심리적 요인과 체감 부담 완화가 영향을 준 것으로 분석된다.