일론 머스크, '그록4'로 AI 초격차 선언…성능·적용성 모두 '압도적'

일론 머스크의 인공지능(AI) 기업 엑스AI가 차세대 모델 '그록4'를 선보이며 기술 경쟁의 속도와 수준 모두에서 업계 판도를 흔들고 있다. 주요 벤치마크에서 압도적 성능을 입증한 동시에 훈련 속도와 규모 면에서도 기존 경쟁사와의 격차를 크게 벌렸다는 평가다.

엑스AI는 10일 X 온라인 라이브스트림을 통해 회사의 최신 대규모 언어 모델 '그록4'와 고성능 버전인 '그록4 헤비'를 발표했다. 이번 모델은 전작 대비 백 배 이상의 컴퓨팅 자원이 투입돼 훈련됐으며 추론과 강화학습 과정에 집중 투자됐다.

이날 머스크는 '그록4'가 기존 AI의 약점으로 지적되던 추론 영역에서 인간 전문가 집단을 능가하는 성능을 보인다고 밝혔다. 실제로 이 모델은 모든 분야에서 박사 수준의 문제를 풀 수 있으며 자체 교정 능력과 제1원칙 기반 사고가 가능하다고 강조됐다. 일부 고난도 벤치마크에서는 툴 없이도 인간 전문가보다 나은 성과를 보였다.

그록4 (사진=xAI 라이브 캡처)

대표적으로 인류 최고의 시험(Humanity's last exam) 벤치마크에서는 툴 미사용 시 25퍼센트, 툴을 활용한 멀티에이전트 기반 '그록4 헤비'로는 50퍼센트 이상의 정답률을 기록했다. 이는 해당 테스트에서 인간 전문가조차 5퍼센트를 넘기기 어려운 난도라는 점에서 주목된다.

수학 및 코딩 평가에서도 만점 또는 최고 점수를 달성했다. 미국 수학 경시대회와 하버드-MIT 토너먼트, 미국 수학 올림피아드 등에서 기존 모델 대비 압도적인 성과를 보였으며 코딩 벤치마크와 게임 인텔리전스 평가에서도 경쟁 모델을 두 배 이상 능가했다.

게임 기반 추론 능력을 측정하는 아크-AGI(Arc-AGI) 벤치마크에서는 비공개 문제셋 기준으로 15.8퍼센트의 정확도를 기록하며 지난 3개월간 깨지지 않던 10퍼센트 장벽을 넘어섰다. 이는 기존 2위 모델인 '클로드3 오퍼스'의 성능을 두 배 가까이 앞선 것으로, '그록4'의 비정형 문제 대응력과 도구 활용 능력을 동시에 입증한 사례로 평가된다.

이 외에도 xAI는 '그록4'가 사실상 거의 모든 주요 AI 벤치마크에서 최고 성능을 기록했다고 밝혔다. 'GPT-QA', '라이브코드벤치' 등에서 2위 모델과 큰 격차로 1위를 차지했으며 '달러당 지능' 관점에서도 독보적이라는 점을 시각화 자료로 강조했다. 단순 정답률 외에도 비용 효율성과 실전 응용력을 중심으로 성능 패러다임 전환을 선언한 셈이다.

일론 머스크 xAI CEO (사진=xAI 라이브 캡처)

'그록4'는 일반형과 고성능형 두 가지 모델 중 하나를 선택할 수 있다. 일반 '그록4'는 단일 에이전트가 문제를 해결하는 방식이며 '그록4 헤비'는 다수 에이전트가 서로 다른 방식으로 문제를 해결하고 결과를 공유해 최적의 답을 도출하는 구조다. 이 방식은 테스트 시 약 열 배 이상의 컴퓨팅 자원을 소모하지만 결과의 질은 크게 향상된다.

툴 활용 능력도 진화했다. 단순히 툴을 호출하는 것이 아니라 훈련 과정 자체에 통합해 안정성과 성능을 끌어올렸다. 실제로 데모에서는 블랙홀 충돌 시각화 자료 생성, 스포츠 경기 승률 예측, 시뮬레이션 코드 작성 등을 선보였다.

음성 모드에서도 진전이 있었다. 지연 시간을 절반으로 줄였으며 새롭게 추가된 감정 기반 음성은 속삭이거나 오페라를 부르는 등 표현의 다양성을 구현했다. 응용 프로그램 인터페이스(API)도 즉시 출시돼 개발자들이 25만6천 토큰의 컨텍스트를 활용할 수 있게 됐다.

요금제는 '슈퍼 그록' 모델로 통합돼 두 가지 버전을 모두 사용할 수 있다. 이미 스탠퍼드 바이오메디컬 연구소와 금융권 일부 기관에서 조기 도입 사례가 나오며 산업 현장 활용도 본격화되고 있다.

그록4 발표 현장 (사진=xAI 라이브 캡처)

다만 xAI는 현 시점에서 '그록4'가 취약한 지점이 멀티모달 기능이라고 밝혔다. 현재는 이미지 이해 및 생성 능력이 부분적이지만 다음 파운데이션 모델을 통해 이 약점을 보완할 계획이다.