본문 바로가기

OpenAI

SORA 톺아보기 서론- 다양한 지속 시간, 해상도 및 종횡비의 비디오와 이미지에 대해 텍스트 조건부 확산 모델을 훈련합니다.- 우리는 비디오 및 이미지 잠재 코드의 시공간 패치에서 작동하는 트랜스포머 아키텍처를 활용합니다. 가장 큰 모델인 Sora는 1분 분량의 고화질 비디오를 생성할 수 있습니다.- 우리의 결과는 비디오 생성 모델을 확장하는 것이 물리적 세계의 범용 시뮬레이터를 구축하기 위한 유망한 경로임을 시사    이 기술 보고서는 (1) 모든 유형의 시각적 데이터를 생성 모델의 대규모 학습을 가능하게 하는 통합 표현(unified representation)으로 전환하는 방법과 (2) Sora의 기능 및 한계에 대한 정성적 평가에 중점을 둡니다. 모델 및 구현 세부 정보는 이 보고서에 포함되지 않습니다.   많은.. 더보기
Prompt engineering 1. 명확한 명령을 쓰세요 전술 1) 더 적절한 답변을 얻기 위해 쿼리에 상세 내용을 포함하세요 전술 2) 모델이 페르소나를 채택하게 하세요 (모델에게 특정 성격을 주입시키세요) 전술 3) 입력 구분을 표시하기 위해 구분자를 사용하세요 전술 4) 작업을 완료하기 위한 단계를 구체화를 지시하세요 전술 5) 예시를 제공하세요 (Few Shot 프롬프트) 전술 6) 원하는 출력의 길이를 구체화 하세요 2. 참조 텍스트를 제공하세요 전술 7) 참조 텍스트를 사용해 모델이 답변하도록 지시할 수 있습니다 (RAG 기반 기술) 전술 8) 참조 텍스트를 인용처를 명시하게 할 수 있습니다. 3. 복잡한 업무를 작은 단위로 쪼개세요 전술 9) 의도 분류를 사용하여 사용자 쿼리와 가장 관련성이 높은 지침을 식별합니다. 전술.. 더보기