"한국형 GPT의 필수요소"…정부, AI 학습용 데이터 민간서 직접 모은다

과학기술정보통신부(과기정통부)가 자체 초거대 인공지능(AI) 모델 개발에 필요한 학습 데이터를 확보하기 위해 민간과 공공의 데이터 보유 기관을 직접 모집한다. 데이터부터 인재, 그래픽 처리장치(GPU)까지 핵심 인프라를 일괄 지원해 한국형 파운데이션 모델을 만들겠다는 전략의 일환이다.

과기정통부는 다음달 21일까지 '독자 AI 파운데이션 모델 프로젝트'에 참여할 데이터 공급기관을 공개 모집한다고 23일 밝혔다. 이번 사업은 내년부터 본격화되는 정부의 대표 AI 전략 과제로, 공모를 통해 선발될 개발팀에 GPU, 데이터, 인재 등 자원을 집중 지원할 예정이다.

이번 모집은 개발팀이 활용 가능한 고품질 유·무료 데이터를 확보하기 위한 조치다. 공급기관은 텍스트, 이미지, 음성 등 다양한 형태의 데이터를 보유하고 있어야 하며 저작권이나 소유권 등 적법한 권원이 확보돼야 한다. 공급 여부는 선발된 개발팀의 실제 수요를 바탕으로 협약을 통해 확정된다.

(사진=과학기술정보통신부)

협약은 과기정통부 산하 정보통신산업진흥원(NIPA)과 한국지능정보사회진흥원(NIA), 한국데이터산업진흥원(K-Data) 등이 사업관리기관으로 참여해 체결한다. 이용 범위·기간·형태 등은 사전에 규정된다. 이후 데이터는 AI허브 내 전용 스토리지를 통해 공유되거나 직접 제공되는 방식이다.

데이터를 무상 제공하는 기관에는 광학문자인식(OCR) 처리, 중복 제거 등 기초 지원과 법률 검토·가공비 등 실비 보전이 지급된다. 유상 제공의 경우 정예 개발팀에 한정된 비상업적 활용 요건을 바탕으로 적정 가격을 협의해 비용을 보전받는다. 상용화 전환 시는 별도 협의가 필요하다.

참여 기관에 대한 인센티브도 구성됐다. 데이터 바우처 사업 등 정부사업 참여 시 가점 부여가 검토되고 AI 기반 서비스의 우선 도입 기회도 제공된다. 데이터 유통에 관심 있는 기관에는 AI 허브를 통한 상품 등록과 거래 활성화도 지원된다.