챗GPT를 만든 OpenAI에서 비디오 AI 서비스인 Sora를 공개하였습니다. Text-to-Video, 텍스트를 입력하면 비디오를 만들어주는 방식의 서비스이며, 현재는 일부 크리에이터들에게 공개되었습니다. 최대 1분 정도의 영상을 단순한 프롬프트만으로도 만들 수 있으며, 전 세계 많은 사람들의 관심이 폭발하고 있답니다. 우선 아래 공식 영상부터 먼저 보시지요. AI 대전환의 시대가 점점 더 가속화되는 느낌이랍니다.
비디오 AI 소라(Sora) 소개
소라(Sora)는 텍스트를 통해 사실적이고 상상력이 풍부한 장면을 만들 수 있는 AI 모델입니다. 이를 위해 OpenAI는 사람들이 실제 상호작용이 필요한 문제를 해결하는 데 도움이 되는 모델을 학습시키는 것을 목표로 움직이는 물리적 세계를 이해하고 시뮬레이션할 수 있도록 AI를 교육하였다고 합니다.
모델은 여러 캐릭터, 특정 유형의 동작, 피사체와 배경의 정확한 디테일이 포함된 복잡한 장면을 생성할 수 있습니다. 이 모델은 사용자가 프롬프트에서 요청한 내용뿐만 아니라 실제 세계에 이러한 사물이 어떻게 존재하는지도 이해합니다.
이 모델은 언어에 대한 깊은 이해를 바탕으로 프롬프트를 정확하게 해석하고 생동감 넘치는 감정을 표현하는 매력적인 캐릭터를 생성할 수 있습니다. 또한 소라(Sora)는 하나의 동영상 내에서 캐릭터와 시각적 스타일을 정확하게 유지하는 여러 장면을 생성할 수 있습니다.
다만, OpenAI는 현재 모델에 약점이 있다고 합니다. 복잡한 장면의 물리학을 정확하게 시뮬레이션하는 데 어려움을 겪을 수 있으며, 원인과 결과의 특정 사례를 이해하지 못할 수도 있습니다. 예를 들어, 사람이 쿠키를 한 입 베어 물었지만 나중에 쿠키에 물린 자국이 없을 수 있다고 하네요.
이 모델은 왼쪽과 오른쪽을 혼동하는 등 프롬프트의 공간적 세부 사항을 혼동할 수 있으며 특정 카메라 궤적을 따라가는 것과 같이 시간에 따라 발생하는 이벤트를 정확하게 설명하는 데 어려움을 겪을 수 있다고 합니다.
비디오 AI 소라(Sora) 연구 기법
OpenAI가 밝힌 연구 기법의 상세 소개는 다음과 같습니다. 소라(Sora)는 확산 모델로, 정적 노이즈처럼 보이는 동영상으로 시작하여 여러 단계에 걸쳐 노이즈를 제거하여 점차적으로 변환하는 방식으로 동영상을 생성합니다.
소라(Sora)는 전체 동영상을 한 번에 생성하거나 생성된 동영상을 확장하여 더 길게 만들 수 있습니다. 모델에 한 번에 여러 프레임을 예측할 수 있는 기능을 제공함으로써 피사체가 일시적으로 시야에서 사라져도 동일하게 유지되도록 하는 까다로운 문제를 해결했다고 합니다.
GPT 모델과 마찬가지로 Sora는 트랜스포머 아키텍처를 사용하여 뛰어난 확장 성능을 구현합니다. 동영상과 이미지를 패치라고 하는 작은 데이터 단위의 모음으로 표현하며, 각 패치는 GPT의 토큰과 유사합니다. 데이터를 표현하는 방식을 통합함으로써 다양한 길이, 해상도, 종횡비에 걸쳐 이전보다 더 광범위한 시각 데이터에 대해 확산 변환기를 훈련할 수 있습니다.
소라(Sora)는 DALL-E와 GPT 모델에 대한 과거 연구를 기반으로 합니다. 이 모델은 시각적 학습 데이터에 대해 설명력이 높은 캡션을 생성하는 DALL-E 3의 리캡션 기술을 사용합니다. 그 결과 모델은 생성된 동영상에서 사용자의 텍스트 지시를 보다 충실히 따를 수 있습니다.
이 모델은 텍스트 설명만으로 동영상을 생성할 수 있을 뿐만 아니라 기존의 정지 이미지를 가져와서 동영상을 생성할 수 있으며, 이미지의 내용을 정확하고 세세한 부분까지 애니메이션으로 표현할 수 있습니다. 또한 모델은 기존 비디오를 가져와서 확장하거나 누락된 부분을 채울 수도 있습니다.
Sora는 사용자가 입력한 텍스트 설명을 바탕으로 관련된 비디오 클립을 생성합니다. 이는 기존의 텍스트나 이미지 생성 AI와 유사한 방식으로 작동하지만, 동적인 비디오 콘텐츠를 생성한다는 점에서 큰 차이를 보입니다.
이 AI는 다양한 장르와 스타일의 비디오를 생성할 수 있는 능력을 갖추고 있어, 교육용 콘텐츠부터 엔터테인먼트, 광고까지 폭넓은 활용이 가능합니다. 사용자의 요구와 상황에 맞는 맞춤형 비디오 제작이 가능해져, 콘텐츠 제작자들에게 큰 도움이 될 것으로 기대됩니다.
Sora는 최대 1분 길이의 고품질 비디오를 생성할 수 있으며, 이는 기존의 짧은 GIF나 애니메이션 클립을 넘어서는 진보입니다. 이를 통해 보다 복잡하고 내용이 풍부한 비디오 스토리텔링이 가능해집니다.
Sora는 다양한 분야에서 그 활용 가능성을 보여줍니다. 교육 분야에서 Sora는 복잡한 개념이나 이론을 쉽게 설명하는 비디오 콘텐츠 제작에 활용될 수 있습니다. 학생들의 이해를 돕는 생동감 있는 시각 자료를 제공함으로써 교육의 질을 높일 수 있습니다.
마케팅과 광고 분야에서는 Sora를 활용하여 창의적이고 매력적인 광고 비디오를 신속하게 제작할 수 있습니다. 이는 브랜드의 메시지를 효과적으로 전달하고, 타겟 오디언스의 주목을 끌 수 있는 방법이 될 수 있습니다.
엔터테인먼트 분야에서 Sora는 새로운 형태의 스토리텔링과 창작물을 탄생시킬 수 있습니다. 사용자가 상상하는 다양한 시나리오를 비디오로 구현함으로써, 새로운 장르의 콘텐츠 개발이 가능해집니다.
챗GPT의 비디오 AI ‘소라(Sora)’의 공개는 디지털 콘텐츠 제작 분야에 새로운 가능성을 제시합니다. 텍스트 입력만으로 고품질의 비디오를 생성할 수 있는 이 기술은 교육, 마케팅, 엔터테인먼트 등 다양한 분야에서 창의적인 활용이 기대됩니다. ‘Sora’는 디지털 콘텐츠 제작의 미래를 재정의하며, AI 기술의 발전이 우리의 일상과 산업에 어떤 혁신적인 변화를 가져올 수 있는지 보여주고 있습니다.