상상만 하면 AI가 '뚝딱'...네이버 실감형 미디어 기술 엿보니

카메라 앞에 선 우주인이 인사를 건넨다. 그 뒤로 펼쳐진 배경은 현실이 아닌, 네이버가 만든 가상 공간. 이제 영상 속 장면은 사람이 아닌 AI가 구성하고, 텍스트 한 줄로도 숏폼 영상이 자동 생성된다.

네이버가 AI 기술을 일상으로 확장하는 ‘온서비스 AI’ 전략을 영상 콘텐츠 생태계로 본격 확장하며, 올해 안에 다양한 영상 기술과 확장현실(XR) 콘텐츠 플랫폼 공개를 예고했다.

16일 네이버는 경기 분당구에서 기자간담회를 열고 ‘이머시브 미디어 플랫폼’ 확대 구축과 함께 이같은 사실을 알렸다.

버추얼 콘텐츠 경험 확대가 미디어 업계 화두로 부상함에 따라 네이버는 독자 구축한 ▲미디어 AI ▲XR 스튜디오 ▲버추얼 스트리밍 등 ‘비전 테크 트라이앵글 기술’을 바탕으로 서비스 전반에 실감형 미디어 경험 확대에 나설 계획이다.

7월 16일 경기 분당구에서 오한기 네이버 리얼타임 엔진 스튜디오 리더가 비전 스튜디오에 대해 설명하고 있다.

연내 영상에 AI 접목한 플랫폼·기술 출시…텍스트를 영상으로 변환

네이버는 실감형 미디어 경험 확대를 위해 AI 기반 영상 콘텐츠 플랫폼과 기술을 선보인다. 먼저, 영상의 맥락을 심층적으로 이해하는 AI 기술인 ‘뮤(MU)Ai’ 플랫폼을 연내 확대해 공개할 예정이다. 해당 플랫폼은 저작권 관리, 유해 콘텐츠 및 저품질 영상 감지 기능을 기반으로 한층 고도화됐다.

올해는 영상 이해 기술의 범위를 확대해 영상의 챕터를 구분하고 설명을 제공하는 오토 챕터 기술, 분위기·장소 등 영상의 세부 내용을 분석하고 메타 데이터화 해 네이버 피드의 추천을 고도화하는 등 사용자 경험을 개선한다.

해당 플랫폼에는 여러 AI 모델과 이미지 처리 기술이 유형별로 내재화 돼 있어 비용 경쟁력도 확보했다는 것이 네이버 측 설명이다.

텍스트 콘텐츠를 영상으로 자동 변환해주는 ‘오토클립Ai’도 내놓는다. 멀티모달 초거대언어모델(LLM)을 활용해 블로그 맥락을 이해하고 요약해 숏폼에 최적화된 내용을 자동 생성하는 기술이다. 음성, 배경음악 등 내용에 맞는 편집 기법을 자동 적용해 최적화된 콘텐츠를 생성한다.

비전 스테이지서 가상화면·실제화면도 연동한다

네이버는 이날 확대 구축한 이머시브 미디어 플랫폼 구현의 대표 사례로 ‘비전·모션 스테이지’를 제시했다. 비전 스테이지와 모션 스테이지는 각각 다양한 주제에 맞춰 초현실화한 가상 배경을 제공할 수 있는 스튜디오, 고품질 3D 콘텐츠를 제작하고자 하는 치지직 스트리머들이 활용할 수 있도록 전문 기술력과 인력 등을 지원하는 스튜디오를 일컫는다.

그 중에서도 비전 스테이지는 ▲커머스부터 ▲드라마나 ▲영화까지도 제작 가능할 정도로 활용도가 높은 것이 특징이다. 현재 많이 제작되고 있는 콘텐츠는 라이브 커머스이며 무한도전 등 치지직의 오리지널 콘텐츠에도 활용되고 있다. 모션 스테이지는 캐릭터에 움직임을 부여하고 가상 배경을 혼합해 끊김 없는 실시간 방송이 가능하다.

7월 16일 경기 분당구에서 오한기 네이버 리얼타임 엔진 스튜디오 리더가 가상 화면에 구현된 우주인과 인사하고 있다.

이날 현장에서는 시연도 이뤄졌다. 비전 스테이지에서는 카메라 트래킹 기술이 적용돼 실제 촬영 시점과 가상 화면이 실시간으로 연동되는 장면을 볼 수 있었다. 고해상도 LED 디스플레이에 모습을 드러낸 후 사라진 우주인이 카메라 트래킹 기술이 적용된 화면에서는 오한기 네이버 리얼타임 엔진 스튜디오 리더와 인사하는 장면이 연출되기도 했다.