[인터뷰] "텍스트 다음은 비디오"…팔란티어 출신 베테랑, 韓 스타트업 간 이유는?

"실리콘밸리에서 오랫동안 다양한 기술과 환경을 경험해 왔지만 영상 데이터를 '이해'하려는 시도는 다른 차원의 도전으로 느껴졌습니다. 단순히 기술이 뛰어나다는 걸 넘어서 제가 정말로 풀고 싶었던 문제를 정면으로 다루고 있었습니다. 자연스럽게 '이제 이곳에서 일해야겠다'는 생각이 들었습니다."

폴 조지 머신러닝 엔지니어는 최근 기자와의 인터뷰에서 트웰브랩스에 합류하게 된 계기를 두고 이같이 말했다. 실리콘밸리에서 지난 15년 동안 활동하며 팔란티어, 오픈도어, 퍼페추아 등 핵심 기술 기업을 거친 그는 지난해 퍼페추아의 엔지니어링 디렉터 자리를 내려놓고 트웰브랩스에 합류했다.

8일 업계에 따르면 파운데이션 모델의 개념이 거대언어모델(LLM)을 넘어 컴퓨터 비전과 멀티모달 영역으로 확장되는 추세다. 이 흐름 속에서 트웰브랩스는 영상 이해에 특화된 비전 파운데이션 모델을 구축하며 주목받고 있다. 지난 2021년 샌프란시스코에서 설립된 이 회사는 영상 속 시각, 음성, 언어 정보를 통합적으로 처리하는 멀티모달 AI 모델을 독자적으로 개발 중이다.

폴 조지 트웰브랩스 엔지니어 (사진=트웰브랩스)

조지 엔지니어가 트웰브랩스를 선택한 배경에는 코넬대 박사과정 시절 직접 공동 창업한 교육용 영상 플랫폼 '비디오노트' 경험이 깔려 있다. 당시 그는 MIT 오픈코스웨어에서 착안해 강의를 촬영하고 메타데이터를 수작업으로 정리하는 과정을 거치며 이 작업을 자동화할 수 있으면 좋겠다는 문제의식을 품게 됐다. 이후 관련 분야에서 연구와 제품 개발을 이어가다 최근 트웰브랩스의 기술을 접했고 자신이 과거에 고민했던 문제를 실제로 해결하고 있는 회사라고 판단했다.

실제로 이 회사는 멀티모달 기반의 영상 이해 기술을 바탕으로 검색, 분석, 요약, 자동화를 수행하는 AI 플랫폼을 개발한다. 영상 내 음성, 자막, 시각 정보를 통합적으로 처리하는 자체 비디오-언어 모델 '페가수스'와 시공간 정보를 인코딩하는 인프라 모델 '마렝고'를 중심으로, 실시간 검색 및 대용량 인덱싱이 가능한 서비스까지 상용화했다. 텍스트 기반 모델에 비해 100배 이상 복잡한 영상 데이터를 처리하기 위한 구조다.

조지 엔지니어는 영상 AI의 기술적 깊이와 스케일 모두를 강조했다. 영상은 텍스트나 이미지보다 정보량이 훨씬 많고 다차원적이기 때문에 단순히 모델 정확도만으로는 대응할 수 없기 때문이다.

그는 "비디오 데이터셋은 그 자체로 대규모 연산 인프라, 고정밀 트레이닝, 신속한 응답 속도를 요구하는 영역"이라며 "우리는 이를 감당할 수 있는 구조를 갖추고 있으며 실제로 기업 고객에 적용해 실시간 영상 분석을 제공하고 있다"고 설명했다.

(사진=트웰브랩스)

현재 트웰브랩스는 샌프란시스코와 서울을 중심으로 양측 오피스를 운영하고 있으며 약 100여 명의 구성원 중 서울 본사에는 연구 및 엔지니어링 팀이, 샌프란시스코 오피스에는 비즈니스 및 고객 대응 조직이 주로 배치돼 있다. 조지 엔지니어는 미국에 거주하면서도 한국 엔지니어들과 긴밀한 협업을 이어가고 있는 상황이다.

조지 엔지니어는 프랑스어로 '에스프리 드 코르(esprit de corps)'라는 표현을 인용하며, 물리적으로 떨어져 있어도 하나의 팀처럼 유기적으로 작동하는 분위기를 강조했다. 더불어 한국 엔지니어들과의 협업에 대해서는 단순히 똑똑한 것을 넘어서 문제를 깊이 있게 파고드는 성향이 인상적이었다고 평가했다.

그는 "특히 멀티모달 AI의 복잡한 구조를 함께 설계하고 운영할 수 있는 동료로서 높은 신뢰를 갖고 있다"며 "한국 오피스를 방문했을 때는 공간에 들어서는 순간 자연스럽게 연결된다는 느낌을 받았다"고 말했다.