"공공데이터 '정제' 없인 韓 AI 없다"…업계, 정책 중심 전환 '촉구'

컴퓨팅입력 :2025-07-15 11:51:11    수정:

한국형 인공지능(AI) 기술의 경쟁력을 높이기 위한 핵심 과제로 '공공데이터 정제' 문제가 다시금 주목받고 있다.

정부가 10년 넘게 공공데이터 개방을 확대하며 양적인 성장은 이뤘지만, 정작 AI 개발 현장에서 실질적으로 활용 가능한 수준의 고품질 데이터는 아직 부족하다는 지적이 제기되고 있다.

15일 업계에 따르면 행정안전부는 AI 시대에 필요한 핵심 공공데이터를 발굴·개방하기 위한 활동을 추진 중이다.

행정안전부가 AI 시대에 맞는 공공데이터 발굴·개방에 나서고 있다. (사진=챗GPT 제작)

앞서 정부는 2013년 공공데이터포털을 개설한 이후 10만 건 이상의 데이터를 개방해 OECD 공공데이터 개방지수 4회 연속 1위라는 성과를 거둔 바 있다. 그러나 개방된 데이터 대부분이 원시 상태로 제공되거나 비정형 형태로 가공이 부족해 실제 기업들이 AI 학습이나 서비스 개발에 활용하기에는 제약이 있다는 것이 업계의 평가다.

공공기관별로 데이터 형식이나 구조가 제각각이라 통합 분석 자체가 어렵고 메타데이터나 활용 가이드가 부실해 데이터를 해석하는 데 며칠씩 소요되는 경우도 적지 않다는 의견도 나온다.

한 AI 스타트업 대표는 "엑셀이나 PDF로 제공되는 데이터는 전처리 작업만 긴 시간이 걸리며 API 제공은 아직 불안정해 실시간 연동이 어렵다"고 밝혔다.

또 특정 데이터가 어느 부처에서 창출된 것인지 불분명한 경우도 있어 오류가 있는 데이터가 발견될 시 책임 소재가 모호하고 담당 공무원 교체로 일관된 데이터의 공급이 중단되는 일도 발생한다는 지적이 제기되고 있다.

공공데이터포털 메인화면 (사진=공공데이터포털)

이러한 현실을 타개하기 위해 정부는 최근 'AI·고가치 공공데이터 수요조사'에 착수하고 국민과 기업의 의견을 수렴해 AI 학습에 필요한 핵심 데이터를 선정·개방하겠다는 계획을 밝혔다.

행안부는 기업 현장을 직접 방문해 필요한 데이터의 구체적 내용, 요구되는 형식과 가공 수준, 활용 애로사항 등을 파악하는 심층 대면조사도 병행 중이다. 이는 기존의 공급자 중심 개방 정책에서 수요자 중심 맞춤형 개방으로의 전환을 예고하는 대목이다.

하지만 여전히 가장 큰 문제로는 품질 보장이 꼽힌다. AI 허브, 데이터 댐 등 주요 데이터 사업에서도 형식 불일치, 라벨링 오류, 최신성 부족 등의 문제가 반복된다는 설명이다.

데이터 품질에 대한 공공 인증 체계나 표준화 기준이 부재해 기업 입장에서는 데이터의 신뢰성을 자체적으로 판단해야 하는 어려움도 느끼고 있다.

이에 업계 실무자들은 단순 개방을 넘어 정제된 데이터를 제공할 수 있는 생태계 조성이 필요하다고 입을 모으고 있다. 인증된 민간 기관이 공공데이터의 품질 검수를 맡고 있는 미국과 유럽연합(EU) 등의 모델을 참고할 필요가 있다는 제언도 나온다.

정부는 공공데이터 활용 확산을 위한 다양한 지원책을 병행해 왔다. 행안부와 한국지능정보사회진흥원(NIA)이 운영하는 '공공데이터 기업 매칭 지원사업'은 공공기관과 민간 기업을 연결해 데이터를 정제·가공한 후 재개방하는 구조로 운영 중이다. 

과학기술정보통신부는 '디지털 데이터 댐'을 통해 산업별 AI 학습용 데이터 구축을 지속하고 있다. 다만 이같은 사업들 역시 아직은 기초적인 정제에 머무는 수준이라는 게 업계의 평가다.

공공데이터 개방 관련 애로 사항 (사진=행안부)

실제 2024년 공공데이터 활용기업 실태조사에서도 '필요한 데이터의 미개방(33.7%)'과 '정보량 부족(31.1%)', '데이터 결합 활용 어려움(15.8%)' 등이 주요 문제점으로 꼽혔다. 이는 단순한 데이터 공급에서 그치지 않고 데이터의 활용성까지 고려한 정제·검증 인프라 확대가 필요하다는 것을 보여주는 지표다.

김홍일 방통위원장

관련기사