트웰브랩스, 자연어 명령만으로 영상 맥락 꿰뚫는 '페가수스 1.5' 공개

파이낸셜뉴스 2026.04.21 11:35 수정 : 2026.04.21 11:07기사원문

[파이낸셜뉴스] 글로벌 영상 AI 스타트업 트웰브랩스가 영상 속 맥락을 이해해 스스로 구조화된 데이터를 생성하는 차세대 영상 추론 AI 모델 '페가수스 1.5'를 공개했다고 21일 밝혔다.

페가수스 1.5 모델에는 '시간 기반 메타데이터 추출' 방식을 도입했다. AI가 영상을 단순히 시청하는 수준을 넘어 사용자가 정의한 기준에 따라 영상을 정밀하게 구간 분할하고 각 구간의 시작과 종료 시점, 상세 내용을 구조화된 데이터로 추출해내는 기술이다.

기존 영상 편집 및 아카이빙 작업은 숙련된 인력이 수천 시간의 영상을 일일이 확인해야 했으나 페가수스 1.5는 이 과정을 언어로 자동화한다. 개발자가 복잡한 코드를 짤 필요 없이 "특정 출연자가 등장하는 서사 위주로 챕터를 구성해줘"와 같은 자연어 명령만으로 영상의 구조를 설계할 수 있다.

미디어 및 뉴스 환경에서는 "날씨 코너만 분리해줘"와 같은 간단한 요청만으로 전체 뉴스 영상이 자동으로 챕터화되며, 이를 즉시 숏폼 콘텐츠로 재가공하거나 아카이브에 등록할 수 있다.

스포츠 분야에서도 경기 영상을 플레이 단위로 분할하고 득점 상황이나 특정 선수의 활약 장면을 자동으로 추출해 하이라이트 클립으로 구성할 수 있어 콘텐츠 제작 단계를 간소화할 수 있다.

페가수스 1.5는 단순한 텍스트 변환을 넘어 시각·청각·맥락 신호를 동시에 읽어내는 멀티모달 기술을 구현한다. 화면 전환이나 오디오 변화는 물론, 주제가 바뀌는 미세한 흐름까지 감지해 구간 경계를 완벽하게 찾아낸다는 설명이다.

트웰브랩스 관계자는 "글로 설명하기 복잡한 대상도 이미지 한 장만 입력하면 영상 속에서 즉시 찾아낼 수 있다"며 "최대 2시간 분량의 긴 영상도 단 한 번의 API 호출로 정밀하게 구조화할 수 있어, 대규모 영상 자산을 보유한 기업들의 운영 효율을 높일 것으로 기대된다"고 전했다.

페가수스 1.5는 기존의 일반 대규모 언어 모델들보다 우수한 성능을 입증했다.

구간 분할 정확도(Segmentation Quality) 평가에서 구글 제미나이 3.1 Pro 대비 13.1% 높은 성능을 보였다.

또 인덱싱이나 전처리 작업 없이 원본 영상 파일만으로 바로 결과를 도출할 수 있는데, 이는 기존의 복잡한 처리 과정을 거쳐야 했던 기업들에게 운영 효율을 획기적으로 높일 수 있음을 의미한다.

이재성 트웰브랩스 대표는 "사용자가 무엇을 원하는지 기준만 정의하면 AI가 영상의 구조를 자동 설계하고 필요한 장면을 추출하는 방식이 보편화될 것"이라며 "영상 콘텐츠는 더 이상 소비 대상이 아니라, 기업이 자유롭게 가공·활용하는 데이터 자산으로 확장될 것"이라고 말했다.

wongood@fnnews.com 주원규 기자

트웰브랩스, 자연어 명령만으로 영상 맥락 꿰뚫는 '페가수스 1.5' 공개

Hot 포토

많이 본 뉴스