클로드3.7 소네트 훈련 과정봤더니…포켓몬 게임까지 활용하네

컴퓨팅입력 :2025-02-25 14:26:01    수정:

앤트로픽(Anthropic)이 발표한 리포트에 따르면, 인공지능 모델 '클로드 3.7 소넷(Claude 3.7 Sonnet)'에 새롭게 도입된 '확장된 사고 모드(extended thinking mode)'는 인간의 사고 방식과 유사하게 AI가 복잡한 문제에 더 많은 인지적 노력을 기울일 수 있게 해준다. 사용자는 이 모드를 켜고 끄는 방식으로 AI가 까다로운 질문에 대해 더 깊이 생각하도록 지시할 수 있으며, 개발자들은 심지어 '사고 예산(thinking budget)'을 설정하여 클로드가 문제에 할애하는 시간을 정확히 제어할 수 있다. (☞ 앤트로픽 보고서 바로가기)

신뢰 구축을 위한 투명성 - AI의 내부 사고 과정 공개의 이점

앤트로픽은 클로드의 사고 과정을 사용자에게 그대로 보여주기로 결정했다. 이러한 투명성은 여러 가지 이점을 제공한다. 먼저, 클로드가 어떻게 생각하는지 관찰할 수 있어 답변을 이해하고 확인하기 쉬워져 사용자가 더 나은 결과를 얻는 데 도움이 된다. 정렬(Alignment) 측면에서는, 모델이 내부적으로 생각하는 것과 외부적으로 표현하는 것 사이의 모순을 통해 기만과 같은 우려스러운 행동을 식별하는 데 활용할 수 있다. 또한 클로드의 사고 과정을 지켜보는 것 자체가 흥미롭다. 앤트로픽의 수학 및 물리학 배경을 가진 연구원들은 클로드의 사고 과정이 복잡한 문제를 추론하는 자신들의 방식과 얼마나 유사한지에 주목했다. 다양한 각도와 추론 분기를 탐색하고, 답변을 두 번, 세 번 확인하는 과정이 인간의 사고와 놀랍도록 비슷하다고 평가했다.

인간처럼 잘못된 생각도 할 수 있다 - 사고 과정 공개의 단점

사고 과정 공개에는 단점도 존재한다. 첫째, 공개된 사고 과정이 클로드의 기본 출력보다 더 객관적이고 덜 인격적으로 느껴질 수 있다. 이는 앤트로픽이 모델의 사고 과정에 표준 캐릭터 훈련을 실시하지 않았기 때문이다. 클로드가 답변에 도달하는 데 필요한 생각을 최대한 자유롭게 할 수 있도록 하기 위함이며, 인간의 사고와 마찬가지로 클로드도 때로는 잘못되거나 오해의 소지가 있거나 미완성된 생각을 하게 된다. 많은 사용자들이 이를 유용하게 여길 것이지만, 일부는 이러한 특성과 사고 과정의 덜 인격적인 콘텐츠에 불만을 느낄 수도 있다.

또 다른 문제는 '충실성(faithfulness)'이다. 사고 과정에 표시된 내용이 실제로 모델의 마음속에서 일어나는 일을 진정으로 대표하는지 확신할 수 없다. 예를 들어, 사고 과정에 표시되는 영어 단어가 모델이 특정 행동을 보이는 이유를 설명하기에 충분하지 않을 수 있다. 충실성 문제와 이를 보장하는 방법은 앤트로픽의 활발한 연구 영역 중 하나다. 지금까지의 연구 결과에 따르면, 모델은 생각 과정에서 명시적으로 논의하지 않는 요소에 기반하여 결정을 내리는 경우가 매우 자주 있다. 이는 현재 모델의 사고를 모니터링하는 것으로는 그 안전성에 관한 강력한 주장을 할 수 없음을 의미한다.

셋째, 보안 관련 우려가 있다. 악의적인 행위자들이 가시적인 사고 과정을 이용해 클로드를 보안 회피(jailbreak)하기 위한 더 나은 전략을 구축할 수 있다. 더 추론적으로는, 모델이 훈련 중에 내부 생각이 표시된다는 것을 학습하면 다른 방식으로 생각하거나 특정 생각을 의도적으로 숨기도록 유도될 수 있다는 우려도 있다.

앤트로픽은 이러한 우려가 미래의 더 강력한 클로드 버전에서 특히 중요할 것이라고 밝히며, 향후 출시에서 사고 과정 공개의 장단점을 고려할 것이라고 언급했다. 따라서 클로드 3.7 소넷의 가시적인 사고 과정은 현재로서는 연구 미리보기로 간주되어야 한다.

클로드 3.7: 포켓몬도 플레이하는 향상된 에이전트 능력

클로드 3.7 소넷은 '행동 스케일링(action scaling)'이라 부를 수 있는 개선된 기능을 갖추고 있다. 이는 반복적으로 함수를 호출하고, 환경 변화에 대응하며, 개방형 작업이 완료될 때까지 지속하는 능력이다. 대표적인 예로 컴퓨터 사용이 있는데, 클로드는 가상 마우스 클릭과 키보드 입력을 발행하여 사용자 대신 작업을 수행할 수 있다. 이전 버전과 비교해 클로드 3.7 소넷은 컴퓨터 사용 작업에 더 많은 차례, 시간, 계산력을 할당할 수 있으며 그 결과도 더 우수하다.

이러한 능력은 멀티모달 AI 에이전트의 능력을 측정하는 평가인 OSWorld에서 클로드 3.7 소넷의 성능 향상으로 나타난다. 클로드 3.7 소넷은 초기에는 이전 모델보다 약간 더 나은 성능을 보이지만, 모델이 가상 컴퓨터와 상호작용을 계속하면서 시간이 지남에 따라 성능 차이가 더욱 커진다.

클로드의 확장된 사고와 에이전트 훈련은 OSWorld와 같은 표준 평가뿐만 아니라 예상치 못한 다른 작업에서도 큰 성능 향상을 가져왔다. 게임보이 클래식 '포켓몬 레드' 플레이가 그 대표적인 예다. 앤트로픽은 클로드에 기본 메모리, 화면 픽셀 입력, 버튼 누름과 화면 탐색을 위한 함수 호출을 장착하여 일반적인 컨텍스트 제한을 넘어 포켓몬을 지속적으로 플레이할 수 있게 했다. 이를 통해 클로드는 수만 번의 상호작용을 통해 게임 플레이를 지속할 수 있게 되었다.

앤트로픽이 공개한 그래프에 따르면, 이전 버전의 클로드 소넷은 게임 초기에 막혔다. 클로드 3.0 소넷은 게임이 시작되는 팔레트 타운의 집을 떠나는 데도 실패했다. 반면 클로드 3.7 소넷의 향상된 에이전트 능력은 훨씬 더 진전된 성과를 달성하여 세 명의 체육관 리더(게임의 보스)를 성공적으로 물리치고 배지를 획득했다. 클로드 3.7 소넷은 여러 전략을 시도하고 이전 가정에 의문을 제기하는 능력이 뛰어나, 게임이 진행됨에 따라 자체 능력을 향상시킬 수 있었다.

앤트로픽은 포켓몬 게임이 클로드 3.7 소넷의 능력을 평가하는 재미있는 방법이지만, 이러한 능력이 게임 플레이를 넘어 실제 세계에 큰 영향을 미칠 것으로 예상한다. 모델의 집중력 유지와 개방형 목표 달성 능력은 개발자들이 다양한 최첨단 AI 에이전트를 구축하는 데 도움이 될 것이다.

병렬 계산으로 물리학 점수 96.5%까지 향상

클로드 3.7 소넷이 확장된 사고 기능을 사용할 때, 이는 '연속적 테스트 시간 계산(serial test-time compute)'의 혜택을 받는다고 할 수 있다. 즉, 최종 출력을 생성하기 전에 여러 순차적 추론 단계를 사용하며, 진행하면서 더 많은 계산 리소스를 추가한다. 일반적으로 이는 예측 가능한 방식으로 성능을 향상시킨다. 예를 들어, 수학 문제에 대한 정확도는 허용된 '사고 토큰(thinking tokens)'의 수에 따라 로그적으로 향상된다.

앤트로픽이 공개한 데이터에 따르면, 클로드 3.7 소넷의 2024년 미국 초청 수학 시험(AIME 2024) 문제에 대한 성능은 문제당 허용된 사고 토큰의 수에 따라 향상되었다. 그래프에서 볼 수 있듯이, 모델이 전체 사고 예산을 사용할 수 있지만 일반적으로 그 이전에 멈춘다. 최종 답변을 요약하는 데 사용되는 샘플링된 토큰도 플롯에 포함되었다.

앤트로픽 연구원들은 또한 병렬 테스트 시간 계산을 사용하여 모델의 성능을 향상시키는 실험을 진행했다. 이는 여러 독립적인 사고 과정을 샘플링하고 정답을 미리 알지 못한 상태에서 최상의 것을 선택하는 방식이다. 이러한 방법 중 하나는 다수결이나 합의 투표로, 가장 일반적으로 나타나는 답변을 '최상'으로 선택하는 것이다. 또 다른 방법은 작업을 확인하도록 요청받은 다른 언어 모델(클로드의 두 번째 사본과 같은)이나 학습된 점수 함수를 사용하여 최선이라고 생각하는 것을 선택하는 것이다. 이와 유사한 전략들은 다른 여러 AI 모델의 평가 결과에서도 보고된 바 있다.

앤트로픽은 병렬 테스트 시간 계산 스케일링을 사용하여 생물학, 화학, 물리학에 관한 도전적인 질문 세트인 GPQA 평가에서 주목할 만한 향상을 달성했다. 256개의 독립 샘플에 해당하는 계산, 학습된 점수 모델, 최대 64k 토큰 사고 예산을 사용하여 클로드 3.7 소넷은 84.8%의 GPQA 점수(물리학 하위 점수 96.5% 포함)를 달성했으며, 다수결 투표의 한계를 넘어 계속 스케일링하는 이점을 보였다.

이러한 방법을 통해 앤트로픽은 클로드가 사고를 마칠 때까지 기다릴 필요 없이 답변의 품질을 향상시킬 수 있다. 클로드는 여러 다른 확장된 사고 과정을 동시에 가질 수 있어, 문제에 대한 더 많은 접근 방식을 고려하고 궁극적으로 훨씬 더 자주 정확한 답변을 얻을 수 있다. 병렬 테스트 시간 계산 스케일링은 새롭게 배포된 모델에서는 사용할 수 없지만, 앤트로픽은 미래를 위해 이러한 방법에 대한 연구를 계속하고 있다.

 강화된 AI 안전 메커니즘

앤트로픽의 책임 있는 스케일링 정책은 적절한 안전 및 보안 조치를 구현하지 않은 모델을 훈련하거나 배포하지 않을 것을 약속한다. 앤트로픽의 프론티어 레드 팀(Frontier Red Team)과 정렬 스트레스 테스트 팀(Alignment Stress Testing team)은 클로드 3.7 소넷에 대한 광범위한 테스트를 실시하여 이전 모델과 동일한 수준의 배포 및 보안 안전장치—AI 안전 수준(ASL) 2 표준—가 필요한지 아니면 더 강력한 조치가 필요한지 확인했다.

클로드 3.7 소넷에 대한 종합적인 평가 결과, 현재의 ASL-2 안전 표준이 여전히 적절한 것으로 확인되었다. 동시에 모델은 모든 영역에서 향상된 정교함과 능력을 보여주었다. 화학, 생물학, 방사선 및 핵(CBRN) 무기 생산과 관련된 작업을 조사하는 통제된 연구에서, 모델 지원을 받은 참가자들이 비지원 참가자들에 비해 일부 성능 '향상'을 보인 것으로 관찰되었다. 즉, 참가자들은 온라인에서 이용 가능한 정보만을 사용하는 것보다 더 성공에 가까워질 수 있었다. 그러나 이러한 작업을 수행하려는 모든 시도에는 성공을 완전히 방해하는 중대한 실패가 포함되어 있었다.

모델에 대한 전문가 레드팀의 피드백은 혼합된 결과를 보였다. 일부 전문가들은 CBRN 프로세스의 특정 영역에서 모델의 지식이 향상되었다고 지적했지만, 중대한 실패의 빈도가 너무 높아 종단간 작업 완료에는 성공할 수 없다는 점도 발견했다. 앤트로픽은 표적 분류기 및 모니터링 시스템의 개발 및 배포를 가속화하여 ASL-2 조치를 선제적으로 강화하고 있다.

또한, 앤트로픽의 미래 모델 능력은 다음 단계인 ASL-3 안전장치로 이동해야 할 수도 있다. 보안 회피를 방지하기 위한 헌법적 분류기(Constitutional Classifiers)에 관한 최근 연구와 다른 노력들은 가까운 미래에 ASL-3 표준의 요구 사항을 구현하는 데 유리한 위치에 있다.

잠재적 유해 내용은 암호화 - 사고 과정 안전 장치

ASL-2에서도 클로드 3.7 소넷의 가시적인 확장 사고 기능은 새로운 것이므로 새롭고 적절한 안전장치가 필요하다. 드문 경우지만 클로드의 사고 과정에 잠재적으로 해로운 내용(아동 안전, 사이버 공격, 위험한 무기 등의 주제 포함)이 포함될 수 있다. 이러한 경우 앤트로픽은 사고 과정을 암호화할 예정이다. 이는 클로드가 사고 과정에 해당 내용을 포함하는 것을 막지는 않지만(이는 여전히 완전히 무해한 응답을 생성하는 데 중요할 수 있음), 사고 과정의 관련 부분은 사용자에게 보이지 않게 된다. 대신 사용자들은 "이 응답에 대한 나머지 사고 과정은 제공되지 않습니다"라는 메시지를 보게 된다. 앤트로픽은 이러한 암호화가 드물게 발생하고, 해로울 가능성이 높은 경우에만 발생하는 것을 목표로 한다.

프롬프트 주입 공격 방어율 74%에서 88%로 향상 - 컴퓨터 사용 안전성 강화

마지막으로, 앤트로픽은 클로드의 컴퓨터 사용 능력에 대한 안전 조치를 강화했다. '프롬프트 주입(prompt injection)' 공격에 대한 방어에 상당한 진전이 있었다. 이는 악의적인 제3자가 클로드가 컴퓨터를 사용하는 동안 볼 수 있는 곳에 비밀 메시지를 숨겨, 잠재적으로 사용자가 의도하지 않은 행동을 하도록 속이는 공격이다. 프롬프트 주입을 무시하도록 새로운 훈련, 이러한 공격을 무시하라는 지시를 포함하는 새로운 시스템 프롬프트, 모델이 잠재적인 프롬프트 주입을 만났을 때 트리거되는 분류기를 통해 현재 이러한 공격의 88%를 방지한다. 이는 완화 조치 없이 74%를 방지하던 것에서 향상된 수치다.

김홍일 방통위원장

관련기사