본문 바로가기

최신 늬우스(News)

SORA 톺아보기

서론

- 다양한 지속 시간, 해상도 및 종횡비의 비디오와 이미지에 대해 텍스트 조건부 확산 모델을 훈련합니다.

- 우리는 비디오 및 이미지 잠재 코드의 시공간 패치에서 작동하는 트랜스포머 아키텍처를 활용합니다. 가장 큰 모델인 Sora는 1분 분량의 고화질 비디오를 생성할 수 있습니다.

- 우리의 결과는 비디오 생성 모델을 확장하는 것이 물리적 세계의 범용 시뮬레이터를 구축하기 위한 유망한 경로임을 시사

 

 

이 기술 보고서는

(1) 모든 유형의 시각적 데이터를 생성 모델의 대규모 학습을 가능하게 하는 통합 표현(unified representation)으로 전환하는 방법

(2) Sora의 기능 및 한계에 대한 정성적 평가에 중점을 둡니다.

모델 및 구현 세부 정보는 이 보고서에 포함되지 않습니다.

 

 

많은 선행 연구는

- 순환 네트워크를 포함한 다양한 방법을 사용하여 비디오 데이터의 생성 모델링을 연구했습니다.1,2,3 

- 생성적 적대 네트워크,4,5,6,7 

- 자동 회귀 변압기,8,9

-  확산 모델.10,11,12 

- 이러한 작업은 종종 좁은 범주의 시각적 데이터, 짧은 비디오 또는 고정된 크기의 비디오에 중점을 둡니다.

- Sora는 시각 데이터의 제너럴리스트 모델로, 다양한 지속 시간, 종횡비 및 해상도에 걸쳐 최대 1분 분량의 고화질 비디오와 이미지를 생성할 수 있습니다.

 

 

시각적 데이터를 패치로 변환

- LLM 패러다임의 성공은 코드, 수학 및 다양한 자연어와 같은 다양한 텍스트 양식을 우아하게 통합하는 토큰을 사용함으로써 부분적으로 가능했습니다.

- 이 연구에서는 시각적 데이터의 생성 모델이 이러한 이점을 어떻게 상속할 수 있는지 고려합니다. LLM에는 텍스트 토큰이 있는 반면, Sora에는 시각적 패치가 있습니다.

- 패치는 시각적 데이터 모델에 대한 효과적인 표현으로 나타났습니다.15,16,17,18 패치는 다양한 유형의 비디오와 이미지에서 제너레이티브 모델을 훈련하기 위한 확장성이 뛰어나고 효과적인 표현이라는 것을 알게 되었습니다.

 

(인코더) 비디오를 저차원 Latent Space로 압축하여 비디오 패치로 변환하여 훈련합니다.

(디코더) 또한 생성된 Latent Space를 픽셀 공간에 다시 매핑하는 해당 디코더 모델을 훈련합니다.

 

 

시공간 잠재 패치

- 압축된 입력 비디오가 주어지면 트랜스포머는 토큰 역할을 하는 시공간 패치 시퀀스를 추출합니다.

- 패치 기반 표현을 통해 Sora는 다양한 해상도, 지속 시간 및 종횡비의 비디오 및 이미지를 학습할 수 있습니다.

- 추론 시 적절한 크기의 그리드에 무작위로 초기화된 패치를 정렬하여 생성된 비디오의 크기를 제어할 수 있습니다.

 

- Sora는 확산 모델입니다.21,22,23,24,25; 입력 노이즈가 있는 패치(및 텍스트 프롬프트와 같은 컨디셔닝 정보)가 주어지면 원래의 "깨끗한" 패치를 예측하도록 훈련됩니다.

(입력 노이즈 패치 + 컨디셔닝 정보) -> 비디오 생성

 

 

가변 지속 시간, 해상도, 종횡비

- Sora는 와이드스크린 1920x1080p 비디오, 세로 1080x1920 비디오 및 그 사이의 모든 것을 샘플링할 수 있습니다.

- 이를 통해 Sora는 기본 종횡비로 직접 다양한 장치에 대한 콘텐츠를 만들 수 있습니다. 또한 전체 해상도로 생성하기 전에 더 작은 크기의 콘텐츠를 빠르게 프로토타이핑할 수 있습니다. 이는 모두 동일한 모델로 제작할 수 있습니다.

다양한 종횡비의 비디오를 자르지 않고 하나의 모델로 생성 가능

 

 

향상된 프레이밍 및 구성

- 우리는 경험적으로 비디오에 대한 기본(native) 종횡비 훈련이 구성과 프레이밍을 개선한다는 것을 발견했습니다(?)

- 우리는 Sora를 모든 훈련 비디오를 정사각형으로 자르는 모델 버전과 비교하는데, 이는 생성 모델을 훈련할 때 일반적인 관행입니다. 정사각형 자르기에 대해 훈련된 모델(왼쪽)은 때때로 피사체가 부분적으로만 보이는 비디오를 생성합니다. 이에 비해 Sora(오른쪽)의 비디오는 프레이밍이 개선되었습니다.

 

--> 학습 영상을 하나의 종횡비로 통일한 다음 생성된 영상을 자르는 것 보다, 다양한 종횡비에서 학습하는 것이 프레이밍에 도움을 준다는 의미 인지(?)

 

 

언어 이해

- DALL· E 3 시리즈30를 이용하여 비디오에 대해 텍스트 캡셔닝을 생성하고 학습합니다 (Re-Captioning)

- GPT를 이용하여 짧은 캡셔닝을 더 긴 캡션으로 변환합니다.

 

--> 캡셔닝 모델로 비디오에 대해 캡셔닝을 생성하고, GPT로 증강시킨 다음 더 상세한 설명을 학습한다는의미인지(?)

 

Video generation models as world simulators (openai.com)

 

 

 

고찰)

- SORA를 비디오 생성 모델이 아닌, 지구상의 물리법칙을 따르는 World Simulator 관점으로 바라보는 것이 놀랍습니다.

반응형