"AI 의사가 인간보다 4배 정확"... MS 의료 AI, 80% 진단 성공

Sequential Diagnosis with Language Models

마이크로소프트가 만든 인공지능 의사가 실제 의사보다 훨씬 더 정확하게 병을 찾아냈다. 이 AI 시스템의 이름은 'MAI-DxO'인데, 오픈AI의 최신 모델과 함께 사용했을 때 80%의 정확도로 병을 진단했다. 반면 실제 의사들은 평균 20%만 맞혔다. 즉, AI가 4배나 더 정확한 것이다.

마이크로소프트 AI 연구팀은 의학계에서 가장 권위 있는 잡지인 뉴잉글랜드 의학저널에 실린 어려운 병 사례 304개를 가지고 실험했다. 이 사례들은 의대생들이 공부할 때 사용하는 매우 복잡하고 어려운 케이스들이다. AI와 의사 모두 같은 조건에서 이 문제들을 풀어야 했다.

실제 병원처럼 단계별로 정보를 얻어가며 진단하는 새로운 방식

지금까지 AI의 의료 능력을 테스트할 때는 모든 정보를 한 번에 주고 객관식 문제를 풀게 했다. 하지만 실제 병원에서는 의사가 환자를 만나 증상을 듣고, 필요한 검사를 하나씩 선택해서 진단을 내린다. 연구진은 이런 실제 상황을 똑같이 만들어냈다.

AI와 의사 모두 처음에는 "29세 여성이 목이 아프고 목 주위가 부어올라 병원에 왔다"같은 간단한 정보만 받는다. 그다음에는 "언제부터 아팠나요?" "열은 없었나요?" 같은 질문을 하거나 "CT 촬영을 해주세요" 같은 검사를 요청해야 한다. '게이트키퍼'라는 AI가 환자 역할을 해서 질문에 답하고 검사 결과를 알려준다. 검사할 때마다 실제 병원처럼 돈이 들어가고, 마지막에 진단이 맞았는지와 총 비용이 얼마나 들었는지를 함께 평가한다.

5명의 AI 의사가 팀을 이뤄 서로 다른 역할로 협력 진단

MAI-DxO의 특별한 점은 마치 5명의 의사가 팀을 이뤄 진료하는 것처럼 만들어졌다는 것이다. 각각 다른 역할을 맡은 AI 의사들이 있다. 첫 번째는 '가설 의사'로 "이 환자는 A병일 확률이 60%, B병일 확률이 30%" 이런 식으로 가능성을 계산한다. 두 번째는 '검사 선택 의사'로 진단에 가장 도움이 되는 검사 3개를 고른다. 세 번째는 '도전 의사'로 "잠깐, 다른 가능성은 없을까?"라며 반대 의견을 제시한다. 네 번째는 '비용 관리 의사'로 "이 검사 말고 더 싼 방법은 없을까?"라고 묻는다. 다섯 번째는 '체크 의사'로 실수가 없는지 최종 점검한다. 이런 방식으로 만든 AI 시스템은 GPT, 클로드, 제미나이 등 어떤 AI 모델을 사용해도 평균 11%씩 정확도가 올라갔다.

MAI-DxO의 놀라운 점은 어떤 AI 모델을 사용해도 성능이 향상된다는 것이다. 연구진은 GPT-4o, 클로드 4 소넷, 제미나이 2.5 프로, 그록-3, 라마 4, 딥시크-R1 등 총 15개의 다른 AI 모델로 실험했다. 결과는 놀라웠다. 상대적으로 성능이 낮은 AI 모델일수록 MAI-DxO를 적용했을 때 더 큰 향상을 보였다. 예를 들어 클로드 4 소넷은 63.2%에서 72.4%로 9.2%포인트 올랐고, 제미나이 2.5 플래시는 56.2%에서 68.4%로 12.2%포인트나 향상됐다. 이는 MAI-DxO가 각 AI 모델의 약점을 보완해 주기 때문이다. 성능이 낮은 AI는 체계적인 진단 과정에서 도움을 받고, 성능이 높은 AI는 비용 효율성이 개선된다는 것이다.

정확도 85.5%까지 올리면서 의료비는 70% 절약

MAI-DxO는 진단을 더 정확하게 할 뿐만 아니라 돈도 훨씬 적게 썼다. 일반 AI가 78.6%의 정확도로 환자 한 명당 7,850달러를 쓴 반면, MAI-DxO는 79.9%의 정확도로 2,397달러만 썼다. 가장 정확한 모드로 설정하면 85.5%의 정확도까지 올릴 수 있다. 이때는 7,184달러가 들지만 여전히 일반 AI보다는 저렴하다.

실험에 참가한 실제 의사들은 미국과 영국에서 일하는 21명이었다. 이들은 평균 12년의 경험을 가진 가정의학과나 내과 의사들이었다. 의사들은 환자 한 명당 평균 11.8분을 써서 6.6개의 질문과 7.2개의 검사를 했다. 비용은 평균 2,963달러였지만 정확도는 19.9%에 그쳤다. 연구진은 "AI가 의사보다 정확한 이유는 AI가 일반의와 전문의의 지식을 모두 가지고 있기 때문"이라고 설명했다. 실제 병원에서는 복잡한 병이 있으면 여러 전문의에게 의뢰해야 하지만, AI는 혼자서도 모든 분야의 지식을 활용할 수 있다는 것이다.

FAQ

Q: 이 AI가 실제 병원에서 사용될 수 있나요?

A: 아직은 연구 단계입니다. 실제 환자를 치료하려면 더 많은 검증과 승인 과정이 필요합니다. 하지만 의사가 부족한 지역이나 응급상황에서 진단을 도와주는 도구로 사용될 가능성이 높습니다.

Q: AI가 의사를 완전히 대체할 수 있나요?

A: 아닙니다. 이번 실험은 매우 어려운 특수한 케이스들이었습니다. 실제 의료에서는 환자와 대화하고, 마음을 어루만지고, 윤리적 판단을 내리는 등 AI가 할 수 없는 일들이 많습니다. AI는 의사를 도와주는 보조 역할을 할 것으로 예상됩니다.

Q: 일반인도 이런 AI 진단을 받을 수 있게 될까요?