오픈AI, '챗GPT 에이전트' 출시…웹 조작·리서치 '전면 통합'

오픈AI가 '챗GPT 에이전트'를 공개하며 인공지능(AI)의 웹 탐색·리서치·행동 기능을 통합했다. 클릭과 입력 같은 유저 인터페이스(UI) 조작부터 정제된 문서 생성까지 단일 인터페이스에서 처리하게 하려는 시도로, 반복적인 지시 없이도 사용자의 목표를 파악하는 에이전트형 AI의 상용화를 예고했다.

18일 오픈AI 공식 블로그에 따르면 이 회사는 '에이전트' 기능을 '챗GPT'에 포함시킨다고 발표했다. 이 기능은 현재 '챗GPT'의 프로, 플러스, 팀 요금제 사용자에게 우선 제공되며 이달 중 엔터프라이즈 및 교육용 플랜으로 확대될 예정이다.

'챗GPT 에이전트'는 기존 '오퍼레이터'와 '딥리서치' 기능을 통합해 진화한 형태다. '오퍼레이터'는 웹 페이지 조작, 심층 리서치는 복잡한 정보 요약에 특화돼 있었지만 각각의 한계를 넘어 통합적 태스크 수행이 가능한 모델로 전환됐다. 웹사이트 탐색, 사용자 로그인 유도, 스프레드시트 편집, 슬라이드 생성 등이 단일 대화 흐름 안에서 이뤄진다.

오픈AI '챗GPT 에이전트' (사진=오픈AI)

에이전트는 다양한 웹 도구를 사용해 시각 브라우저, 텍스트 기반 브라우저, 응용 프로그램 인터페이스(API) 접근 등 복수 경로로 정보를 수집하고 실행한다. 기존 챗봇의 질의응답이 아니라 "미팅을 요약해줘"나 "자료를 수집하고 발표자료를 만들어줘" 같은 실제 업무 수행이 가능하다. 더불어 사용자 개입 없이도 단계 간 전환을 수행한다.

실행은 오픈AI가 제공하는 가상 컴퓨터 상에서 이뤄진다. 작업 맥락이 유지되며 사용자가 작업 흐름 중 언제든 개입하거나 수정할 수 있다. 승인 기반 구조 덕분에 민감한 입력이나 구매, 제출 등의 액션 전에는 반드시 사용자 승인을 받는다.

모델은 리서치 성능을 검증하는 다수의 벤치마크에서 기존 모델 대비 성능을 크게 끌어올렸다. '인류 최후의 시험(Humanity's last exam)'에서 43.1점으로 최고점을 기록했고 데이터 분석과 모델링을 평가하는 '디에스벤치(DSBench)'에서는 인간 분석가와 기존 GPT 모델을 모두 상회했다. 스프레드시트 작업을 평가하는 '스프레드시트 벤치(SpreadsheetBench)'에서는 기존 'GPT-4o' 대비 두 배 이상의 정확도를 보였다.

웹 기반 실사용 평가에서도 에이전트의 성능은 두드러졌다. '웹아레나(WebArena)'에서의 실제 작업 수행 정확도는 사람에 근접한 78.2%를 기록했고 웹 검색을 통한 난이도 높은 정보 수집 벤치마크인 '브라우즈콤프(BrowseComp'에서도 68.9%로 기존 심층 리서치를 크게 앞섰다.

업무 자동화와 일상 활용 모두를 겨냥한 이 기능은 반복적 문서 편집, 회의 일정 조율, 재무자료 업데이트, 예약 수행 등 실무 전반에 적용 가능하다. 여행 계획 수립이나 전문가 예약처럼 개인 활용도도 염두에 두고 설계됐다.

'챗GPT 에이전트' 라이브 시연 현장 (사진=오픈AI 유튜브 캡처)

사용자는 '에이전트 모드'를 대화창 내에서 직접 선택해 작업을 요청할 수 있다. 작업의 각 단계는 화면에 실시간으로 설명되며 브라우저 직접 조작을 통한 사용자 통제권도 보장된다. 반복 작업은 주기적으로 예약 설정할 수 있어 자동화도 가능하다.

보안 설계는 명시적 사용자 승인, 직접조작 모드, 사용자 데이터 비보존 등의 방식으로 강화됐다. 특히 모델이 외부의 지침이나 인젝션 공격에 의해 악용되지 않도록 설계 단계부터 시나리오별 방어 체계를 갖춰 민감 작업은 원천적으로 거부된다.

브라우징 쿠키나 세션 로그인 정보도 전적으로 사용자가 통제한다. 설정에서 원클릭으로 전체 데이터를 삭제하거나 모든 로그인 세션을 종료할 수 있으며 직접조작 모드에서는 사용자의 입력이 '챗GPT'에 기록되지 않는다.