크래프톤, 언어 모델 기반 게임 AI 평가 벤치마크 'Orak' 공개

크래프톤(대표 김창한)은 대규모 언어 모델(Large Language Model, 이하 LLM)을 기반으로 한 AI 에이전트의 게임 수행 능력을 평가할 수 있는 벤치마크 Orak을 공개했다.

Orak은 ‘오락’에서 착안한 이름으로 게임 환경에서 AI의 상황 인식과 판단, 행동 결정 과정을 정량적으로 분석할 수 있는 평가 체계다. 액션, 어드벤처, RPG, 시뮬레이션, 전략, 퍼즐 등 총 6개 장르의 대중적인 게임을 기반으로 설계됐다.

이 체계에는 크래프톤과 엔비디아가 공동 개발한 CPC(Co-Playable Character)를 통해 축적한 AI 설계 경험이 반영됐다. 이를 바탕으로 LLM 기반 AI 에이전트가 복잡한 게임 맥락 속에서 상황을 해석하고 결정하는 능력을 평가한다. Orak을 통해 CPC를 포함한 AI 에이전트의 게임 능력을 반복적으로 검증할 수 있어, AI와 함께 플레이하는 새로운 게임 경험의 혁신을 가속화할 것으로 기대된다.

Orak 게임 AI 플레이 점수 순위표.

핵심 기술로는 MCP(Model Context Protocol)가 있다. MCP는 게임 정보를 언어 모델이 이해할 수 있는 텍스트 기반의 정보로 전달하고, 모델의 응답을 게임에 적용 가능한 행동으로 변환하는 역할을 한다. 이를 통해 LLM은 게임 플레이어처럼 작동해, 게임의 상태를 텍스트나 이미지로 받아들여 최적의 행동을 선택할 수 있다. 액션 게임에서는 장애물의 위치를 인식한 뒤 이동이나 점프와 같은 판단을 수행하게 된다.

크래프톤은 Orak을 통해 AI 기술 연구의 새로운 기준을 제시하고, 향후 게임 산업을 넘어 다양한 산업 분야로 연구를 확장할 예정이다. 또한 LLM 파인튜닝(Fine-tuning)용 데이터셋도 함께 제공한다. 연구자들은 이를 활용해 사전 학습된 LLM을 실제 게임 환경에 맞게 적용하고 최적화할 수 있다.