[유미's 픽] "너도 나도 프롬 스크래치?"…국가대표 AI 2차전, 자체 기술 평가 '관건'

"너도 나도 '프롬 스크래치(From Scratch)' 방식이래요. 마케팅 용어로 무분별하게 나오는 게 심사에 과연 도움이 될 지 모르겠어요."

최종 5개 팀을 뽑는 '독자 인공지능(AI) 파운데이션 모델 개발' 사업자 선정이 본격화되면서 업계가 각 업체의 AI 모델을 두고 혼란에 빠졌다. '프롬 스크래치' 방식으로 자체 AI 모델을 만들 수 있는지가 사업자 선정에 있어 핵심 기준이 될 것이란 전망이 나오자 제대로 된 검증 없이 홍보용으로 앞세우고 있어서다.

29일 업계에 따르면 '프롬 스크래치'는 AI 모델을 처음부터 직접 개발한다는 뜻으로, 데이터 수집과 모델 아키텍처 설계, 학습, 튜닝까지 모든 것을 자체적으로 수행하는 방식이다. 이 개념은 거대언어모델(LLM) 개발 때 많이 언급되며 아무 것도 없는 상태에서 모델을 직접 설계하고 데이터를 수집 및 전처리해 학습시킨다는 점에서 이를 통해 AI 모델을 선보일 경우 기술력이 상당히 높다고 평가를 받는다. 오픈AI의 'GPT-4'나 구글 '제미나이', 메타 '라마', 앤트로픽 '클로드' 등이 여기에 속한다.

이홍락 LG AI연구원 공동 연구원장 (사진=조이환 기자)

국내에선 네이버 '하이퍼클로바X'와 LG AI 연구원 '엑사원', NC AI '바르코 LLM', KT '믿음', 카카오 '카나나' 등이 프롬 스크래치 방식을 제대로 구현해 만들어진 것으로 평가 받고 있다.

다만 일부 기업들은 프롬 스크래치 방식으로 분별하기엔 애매한 부분이 많음에도 불구하고 '독자 AI 파운데이션 모델 개발' 사업자로 선정되기 위해 마케팅 용어로 사용해 문제로 지적 받고 있다.

업계 관계자는 "일부 기업들이 '프롬 스크래치' 방식이 아닌 외국 AI 모델을 기반으로 재설계하거나 파인튜닝을 한 것을 활용했음에도 마치 자체 기술로 모두 개발한 것처럼 부풀려 홍보하는 경우가 최근 들어 많아졌다"며 "어디까지가 자체적으로 독자 기술을 사용했는지에 대한 판단 기준 없이 이를 마케팅 용어처럼 남발하는 것은 국내 AI 시장에 좋은 영향을 주진 못한다"고 짚었다.

이에 일각에선 모델 구조나 가중치가 기업들의 자체 기술로 얼마나 구현했는지에 따른 분류가 필요하다고 지적했다. 오픈소스 구조를 차용하거나 이를 기반으로 전체 재학습을 한 경우, 오픈소스 모델 공개 가중치를 그대로 이용하지만 전면 추가 학습을 한 경우 등 다양한 사례들이 많이 나오고 있어서다.

특히 이승현 디지털플랫폼정부위원회 국장은 최근 자신의 소셜 미디어(SNS)에 이를 좀 더 명확히 할 수 있는 분류 체계를 제안해 업계의 주목을 받고 있다. 이 국장은 정부가 '국가대표 LLM' 사업자를 선정하는데 있어 단순 모델 성능뿐 아니라 통제 가능성, 설명 가능성, 공급망 안전, 법·윤리 준수 등을 종합적으로 계량화 해 총 7단계로 모델을 구분할 수 있어야 한다고 주장했다.

이 기준에 맞춰 이 국장이 제안한 'T0'은 가장 낮은 등급으로, 외부 폐쇄 API 호출 후 프롬프트·필터만 추가한 LLM이다. 아키텍처, 가중치 기원은 100% 외산·폐쇄형이며 통제나 주권성이 거의 없어 API 계약, 쿼터에 의존한다. 챗GPT 기반 다수 PoC 서비스가 이에 해당된다.

'T1'은 폐쇄 가중치에 LoRA(저비용 경량 파인튜닝 방식), RAG(검색증강생성) 등 경량 튜닝을 더하는 것이다. 가중치 불투명성이 특징으로, 통제나 주권성 측면에서 설명 가능성과 재현성이 제한된다. 의료, 금융 시범 모델, UAE TAMM 3.0, KT 챗GPT-4oK(예정) 등이 여기에 속한다.

이 국장은 "T0~T1은 학습 비용과 시간을 최소화하고 최신 모델 성능을 즉시 활용할 수 있다"면서도 "하지만 API 차단, 가격 인상, 설명·통제 불가 등의 위험이 있을 것"이라고 평가했다.

'T2' 등급은 메타 '라마', 알리바바 '큐원' 등 공개 가중치를 100% 이용해 전면 추가 학습한 것들이다. 기반 모델 라이선스 준수가 필요하며 로컬 호스팅, 가중치 수정이 가능해 통제나 주권성이 중간 수준이다. SK텔레콤이 '큐원 2.5'를 기반으로 이달 초 선보인 '에이닷엑스 4.0(A.X 4.0)'이 대표적이다.

업계 관계자는 "T2 등급에 속하는 모델들이 한국어로 튜닝됐다는 이유만으로 이를 '한국형 모델'이라고 부르는 것은 맞지 않다"며 "모델의 '메모리'는 여전히 '큐원 2.5' 같은 해외 모델이라는 점에서 큐원에서 학습한 불투명한 정보가 국내 기업 AI 모델 내부에 그대로 내재돼 잘못된 결과물이 예기치 않게 출력될 가능성을 배제할 수 없다"고 지적했다.

이어 "'큐원 2.5'는 메타 '라마'와 달리 학습에 어떤 데이터를 사용했는지, 어떻게 수집·정제했는지조차 밝히지 않아 불투명한 모델이라는 지적을 받고 있다"며 "이를 활용한 모델들은 공공망, 정부망에 도입되는 것을 철저하게 막아야 한다"고 덧붙였다.

바르코 LLM (사진= NC AI)

'T3'는 오픈소스 모델 구조·레이어를 확장한 후 전체 재학습한 LLM이다. 기반 모델 라이선스 부분 준수가 필요하다. 또 통제나 주권성이 중간 이상이지만 구조 혁신은 제한된다. 업스테이지 '솔라 프로 2(Phi‑4→DUS)'가 이 등급에 해당된다. DUS는 구조 일부를 변경해 자체화한 AI 모델 개발 방식이다.

이 국장은 "T2~T3 등급은 CPT(추가 사전학습)로 기존 오픈소스 모델에 대규모 한국어 토큰을 재훈련해 비용 5~10%로 성능을 크게 높일 수 있다"며 "DUS는 깊이만 확장해 파라미터와 성능을 올릴 수 있는 장점이 있다"고 분석했다.

그러면서도 "여전히 기반 모델 버전업 시 재호환 문제가 우려된다"며 "라이선스 조건 충족 등이 필요할 것으로 보인다"고 덧붙였다.

'T4' 등급부터는 라마-류 구조를 차용하고 가중치 전량을 자체 사전 학습한 것들이다. 구조 의존적이지만 가중치는 독립적이다. 또 통제나 주권성이 높으나 구조 혁신은 다소 제한된다. KT '믿음 2.0'과 SK텔레콤 '에이닷엑스 3.1' 등이 이 등급에 포함된다.

이 국장은 "라마식 프롬 스크래치라고 미묘하게 봐야 할 것 같다"며 "학습 데이터나 토크나이저 자체 설계로 통제권을 어느 정도 확보했지만 핵심 블록은 여전히 동일해 구조에 제한이 있어 특허, 트렌드에 영향이 있을 것으로 보인다"고 짚었다.

'T5'는 구조까지 변형하고 가중치 자체 학습을 하는 것이다. 구조와 가중치 모두 완전 국산이며 주권성과 통제 가능성이 매우 높다. LG AI연구원이 개발한 '엑사원 4.0', 네이버 '하이퍼클로바 X 씽크', NC AI '바르코 LLM' 등이 대표 사례다.

이 국장은 "T5 등급은 통제권과 설명 가능성을 확보했다"며 "그러나 막대한 투자 및 컴퓨트, 데이터가 필요하므로 효율성 부분에서 우려도 있을 것 같다"고 설명했다.

가장 높은 등급인 'T6'은 T5 등급 요건에 칩, 프레임워크, IDC, 데이터까지 완전 자립한 단계다. 공급망, 법적 완전 통제가 가능하며 통제나 주권성이 최고 수준이다. 현재 국내에선 T6 등급 구현 사업을 진행하고 있는 상태로, 중국 워다오(WuDao), UAE 팔콘 인프라 등이 T6에 해당되는 것으로 분류된다.

이 국장은 "T6 등급이야말로 이상향으로, 우리가 추구해야 하는 방향"이라며 "한국은 풀스택 생태계를 가지고 있는 몇 안 되는 나라"라고 강조했다.

네이버 '하이퍼클로바 x 씽크' (사진=네이버클라우드)

해외에선 파운데이션 모델을 T4~T5 등급과 비슷하게 본다. 파인 튠드 모델은 T1~T2, 인스트럭션 튠드, 언라인먼트 튠드는 T2~T3에 해당된다. 멀티모달, 익스퍼트 모델은 T3~T5쯤에 해당된다.

이 국장은 "CPT까지는 기존 모델 가중치를 전부 계승하는 만큼 리스크가 존재해 자체 모델이나 독자모델로 보기는 좀 한계가 있는 것 같다"며 "DUS부터는 레이어를 확장해 파라미터를 부분적으로 자산화해 주권성이 높아지는 만큼 여기부터는 어느 정도 독자기술이라고 할 수도 있을 것 같다"고 분석했다.

그러면서 "프롬 스크래치(T4)·커스텀 아키텍처(T5)·풀스택(T6)으로 올라갈수록 공급망과 정보보호 리스크가 줄어든다"며 "정부는 등급별 허용 위험 한도를 명확히 설정해 국방·안보·개인정보 업무 등에 최적화된 모델을 지정할 수 있을 것"이라고 평가했다.

또 그는 "T5, T6 모델 확보는 결과적으로 글로벌 협상 및 경쟁에서 협상력을 높이는데 매우 중요할 것 같다"며 "공공, 국방, 외교는 T4 이상이거나 왠만하면 T5, 일반적인 행정민원서비스는 T3부터, 민간 B2B는 T0부터 활용할 수 있지 않을까 싶다"고 덧붙였다.

이같은 이 국장의 의견에 업계에선 대부분 동의하는 분위기다. 많은 비용을 들여 자체 기술력으로 모델을 개발한 곳들이 '프롬 스크래치'라는 용어에 함께 포함돼 해외 오픈소스 모델의 아키텍처를 재설계해 만들어진 모델들과 비슷한 수준으로 평가되는 사례가 빈번해지고 있어서다.

이에 이 국장은 모델 생성 이력에 대해 제대로 인지하고 등급 체계를 정리하게 되면 평가의 투명성과 형평성이 확보된다는 점에서 긍정적인 효과가 있을 것으로 봤다. 또 동일한 벤치마크 점수라도 T0(외부 API 래핑)와 T5(맞춤형 구조·가중치 전면 자체 학습)는 위험 구조가 전혀 다르기 때문에 각 모델을 '같은 출발선'으로 정규화해 공정하게 비교할 수 있는 등급화가 선정 과정에 대한 논란을 최소화 할 수 있을 것으로 예상했다.

AI 모델을 등급화 할 경우 소버린 AI 관점에서의 리스크를 계층별로도 관리할 수 있을 것으로 관측했다. CPT에 머무르는 T2 모델은 업스트림 라이선스·업데이트에 전적으로 묶여 있지만, DUS 기반 T3 모델은 신규 층을 자산화해 일부 독립성을 확보할 것으로 봤다.

이 국장은 "프롬 스크래치(T4)·커스텀 아키텍처(T5)·풀스택(T6)으로 올라갈수록 공급망과 정보보호 리스크가 줄어든다"며 "정부는 등급별 허용 위험 한도를 명확히 설정해 국방·안보·개인정보 업무 등에 최적화된 모델을 지정할 수 있을 것"이라고 평가했다.

이 외에도 이 국장은 등급 구별에 따라서 예산과 컴퓨트 자원의 효율적 배분, 국제 규제 대응력과 국민 신뢰도 확보, 산업·학계 대상 명확한 로드맵과 투자 시그널 제시, 소버린 AI 관점에서 국제 협상력 강화 등의 효과도 기대했다.

이 국장은 "T5·T6급 모델과 국산 칩·프레임워크가 결합하면 우리나라는 글로벌 표준 논의에서 기술적 레버리지를 확보하고 동시다발적 파트너십을 주도할 수 있다"며 "반대로 T0~T2 수준에만 계속 머무르면 '파인튜너 국가'로 규정돼 외부 의존이 심화될 위험이 있다"고 말했다.

SKT 에이닷 신규 AI 서비스 2종 베타 버전 출시 (사진=SKT)

업계에선 이 국장의 등급 구별 제안을 정부가 '독자 AI 파운데이션 모델 개발' 사업자 선정 심사 시 고려하길 기대했다. 과학기술정보통신부는 이날 오전 11시까지 '독자 AI 파운데이션 모델 개발' 사업과 관련된 PT 발표 자료를 1차 관문을 통과한 10개 컨소시엄에게 받은 상태로, 각 컨소시엄들은 오는 30~31일 20분 가량의 발표를 진행한다.

이번 PT 발표에 참여하는 컨소시엄은 지난 25일 첫 관문을 통과한 ▲네이버클라우드 ▲LG AI연구원 ▲모티프테크놀로지스 ▲카카오 ▲업스테이지 ▲KT ▲SK텔레콤 ▲코난테크놀로지 ▲NC AI ▲카이스트 등 10곳이다. 이들은 이번 발표에서 기술력 입증과 AI 모델 실증 사례 확산 계획을 제대로 증명해야 한다. 또 미리 제출한 5분 가량의 동영상에는 'AI 파운데이션 모델 개발 관련 역량'을 확인할 수 있는 내용이 담겨야 한다.

정부는 8월 초까지 사업비 심의·조정 등 절차를 거쳐 최종 5개 정예팀을 확정, 협약 체결을 완료할 예정이다. 선발된 정예팀은 첨단 그래픽처리장치(GPU), 데이터, 인재 등을 지원 받아 '국가대표 AI' 개발에 나서게 된다.