챗GPT의 비디오 AI 소라(Sora) 공개: 1분 길이 영상도 거뜬

챗GPT를 만든 OpenAI에서 비디오 AI 서비스인 Sora를 공개하였습니다. Text-to-Video, 텍스트를 입력하면 비디오를 만들어주는 방식의 서비스이며, 현재는 일부 크리에이터들에게 공개되었습니다. 최대 1분 정도의 영상을 단순한 프롬프트만으로도 만들 수 있으며, 전 세계 많은 사람들의 관심이 폭발하고 있답니다. 우선 아래 공식 영상부터 먼저 보시지요. AI 대전환의 시대가 점점 더 가속화되는 느낌이랍니다.

Introducing Sora — OpenAI’s text-to-video model

비디오 AI 소라(Sora) 소개

소라(Sora)는 텍스트를 통해 사실적이고 상상력이 풍부한 장면을 만들 수 있는 AI 모델입니다. 이를 위해 OpenAI는 사람들이 실제 상호작용이 필요한 문제를 해결하는 데 도움이 되는 모델을 학습시키는 것을 목표로 움직이는 물리적 세계를 이해하고 시뮬레이션할 수 있도록 AI를 교육하였다고 합니다.

비디오 AI, 소라

모델은 여러 캐릭터, 특정 유형의 동작, 피사체와 배경의 정확한 디테일이 포함된 복잡한 장면을 생성할 수 있습니다. 이 모델은 사용자가 프롬프트에서 요청한 내용뿐만 아니라 실제 세계에 이러한 사물이 어떻게 존재하는지도 이해합니다.

이 모델은 언어에 대한 깊은 이해를 바탕으로 프롬프트를 정확하게 해석하고 생동감 넘치는 감정을 표현하는 매력적인 캐릭터를 생성할 수 있습니다. 또한 소라(Sora)는 하나의 동영상 내에서 캐릭터와 시각적 스타일을 정확하게 유지하는 여러 장면을 생성할 수 있습니다.

다만, OpenAI는 현재 모델에 약점이 있다고 합니다. 복잡한 장면의 물리학을 정확하게 시뮬레이션하는 데 어려움을 겪을 수 있으며, 원인과 결과의 특정 사례를 이해하지 못할 수도 있습니다. 예를 들어, 사람이 쿠키를 한 입 베어 물었지만 나중에 쿠키에 물린 자국이 없을 수 있다고 하네요.

이 모델은 왼쪽과 오른쪽을 혼동하는 등 프롬프트의 공간적 세부 사항을 혼동할 수 있으며 특정 카메라 궤적을 따라가는 것과 같이 시간에 따라 발생하는 이벤트를 정확하게 설명하는 데 어려움을 겪을 수 있다고 합니다.

비디오 AI 소라(Sora) 연구 기법

OpenAI가 밝힌 연구 기법의 상세 소개는 다음과 같습니다. 소라(Sora)는 확산 모델로, 정적 노이즈처럼 보이는 동영상으로 시작하여 여러 단계에 걸쳐 노이즈를 제거하여 점차적으로 변환하는 방식으로 동영상을 생성합니다.

소라(Sora)는 전체 동영상을 한 번에 생성하거나 생성된 동영상을 확장하여 더 길게 만들 수 있습니다. 모델에 한 번에 여러 프레임을 예측할 수 있는 기능을 제공함으로써 피사체가 일시적으로 시야에서 사라져도 동일하게 유지되도록 하는 까다로운 문제를 해결했다고 합니다.

GPT 모델과 마찬가지로 Sora는 트랜스포머 아키텍처를 사용하여 뛰어난 확장 성능을 구현합니다. 동영상과 이미지를 패치라고 하는 작은 데이터 단위의 모음으로 표현하며, 각 패치는 GPT의 토큰과 유사합니다. 데이터를 표현하는 방식을 통합함으로써 다양한 길이, 해상도, 종횡비에 걸쳐 이전보다 더 광범위한 시각 데이터에 대해 확산 변환기를 훈련할 수 있습니다.

소라(Sora)는 DALL-E와 GPT 모델에 대한 과거 연구를 기반으로 합니다. 이 모델은 시각적 학습 데이터에 대해 설명력이 높은 캡션을 생성하는 DALL-E 3의 리캡션 기술을 사용합니다. 그 결과 모델은 생성된 동영상에서 사용자의 텍스트 지시를 보다 충실히 따를 수 있습니다.

이 모델은 텍스트 설명만으로 동영상을 생성할 수 있을 뿐만 아니라 기존의 정지 이미지를 가져와서 동영상을 생성할 수 있으며, 이미지의 내용을 정확하고 세세한 부분까지 애니메이션으로 표현할 수 있습니다. 또한 모델은 기존 비디오를 가져와서 확장하거나 누락된 부분을 채울 수도 있습니다.

Sora는 사용자가 입력한 텍스트 설명을 바탕으로 관련된 비디오 클립을 생성합니다. 이는 기존의 텍스트나 이미지 생성 AI와 유사한 방식으로 작동하지만, 동적인 비디오 콘텐츠를 생성한다는 점에서 큰 차이를 보입니다.

이 AI는 다양한 장르와 스타일의 비디오를 생성할 수 있는 능력을 갖추고 있어, 교육용 콘텐츠부터 엔터테인먼트, 광고까지 폭넓은 활용이 가능합니다. 사용자의 요구와 상황에 맞는 맞춤형 비디오 제작이 가능해져, 콘텐츠 제작자들에게 큰 도움이 될 것으로 기대됩니다.

Sora는 최대 1분 길이의 고품질 비디오를 생성할 수 있으며, 이는 기존의 짧은 GIF나 애니메이션 클립을 넘어서는 진보입니다. 이를 통해 보다 복잡하고 내용이 풍부한 비디오 스토리텔링이 가능해집니다.

Sora는 다양한 분야에서 그 활용 가능성을 보여줍니다. 교육 분야에서 Sora는 복잡한 개념이나 이론을 쉽게 설명하는 비디오 콘텐츠 제작에 활용될 수 있습니다. 학생들의 이해를 돕는 생동감 있는 시각 자료를 제공함으로써 교육의 질을 높일 수 있습니다.

마케팅과 광고 분야에서는 Sora를 활용하여 창의적이고 매력적인 광고 비디오를 신속하게 제작할 수 있습니다. 이는 브랜드의 메시지를 효과적으로 전달하고, 타겟 오디언스의 주목을 끌 수 있는 방법이 될 수 있습니다.

엔터테인먼트 분야에서 Sora는 새로운 형태의 스토리텔링과 창작물을 탄생시킬 수 있습니다. 사용자가 상상하는 다양한 시나리오를 비디오로 구현함으로써, 새로운 장르의 콘텐츠 개발이 가능해집니다.

챗GPT의 비디오 AI ‘소라(Sora)’의 공개는 디지털 콘텐츠 제작 분야에 새로운 가능성을 제시합니다. 텍스트 입력만으로 고품질의 비디오를 생성할 수 있는 이 기술은 교육, 마케팅, 엔터테인먼트 등 다양한 분야에서 창의적인 활용이 기대됩니다. ‘Sora’는 디지털 콘텐츠 제작의 미래를 재정의하며, AI 기술의 발전이 우리의 일상과 산업에 어떤 혁신적인 변화를 가져올 수 있는지 보여주고 있습니다.

구글 제미나이(Gemini)로 ChatGPT 반격을 노리다

구글의 바드(Bard)가 제미나이(Gemini)로 새롭게 태어났습니다. 구글은 지난 12월 구글 Gemini 발표에서 소개하였던 구글의 최대 규모 AI 모델인 Gemini Ultra를 탑재한 제미나이 어드밴스드(Gemini Advanced)를 출시하였습니다.

구글 제미나이(Gemini)로 ChatGPT 반격을 노리다
구글 제미나이(Gemini)로 ChatGPT 반격을 노리다

작년 5월 구글 바드(Bard)는 한글 버전이 출시되면서 챗GPT(ChatGPT)의 강력한 경쟁자가 등장하는 것 아닌가라는 기대를 했지만 실제 기대만큼의 유명세를 만들지는 못했는데 드디어 제미나이로 반격을 시작하는 모양새입니다. 이를 위해 과감히 바드라는 브랜드를 버리고 제미나이로 탄생을 선택한 것 아닌가라는 생각이 듭니다.

구글 제미나이 어드밴스드 출시와 유료 요금제

제미나이 울트라를 탑재한 제미나이 어드밴스드는 150개 이상의 국가 및 지역에서 서비스를 시작하였습니다. 다만 아직까지는 영어로만 사용할 수 있으며, 향후 한국어를 포함한 다양한 언어로 확대될 예정입니다.

다만, 제미나이 어드밴스드는 ChatGPT Plus처럼 유료 과금 모델을 채택하였으며, 구글 원 AI 프리미엄(Google One AI Premium) 요금제의 일부로 월 29,000원에 이용할 수 있답니다. (연간 요금제 별도 제공) 그리고 현재는 해당 요금제 가입 시 2개월 동안 무료로 사용할 수 있는 프로모션도 같이 진행하고 있답니다. 29,000원의 유료 모델을 가입하게 되면 구글 원(Google One) 스토리지도 2TB 사용의 혜택도 누를 수 있답니다.

스크린샷 2024 02 09 오전 11.34.46

아울러 구글 원 AI 프리미엄 요금제 가입자는 조만간 지메일, 구글 닥스 등에서 제미나이를 사용할 수 있게 된다고 합니다.

제미나이 앱 출시로 사용자 접근성 확대

구글은 사용자들이 손쉽게 스마트폰을 통해 제미나이와 제미나이 어드밴스드를 쉽게 경험할 수 있도록 하기 위해 안드로이드용 제미나이 앱과 iOS 환경의 구글 앱 업데이트도 발표했습니다. 안드로이드 기기에서는 앱을 다운로드한 후 홈 버튼 또는 전원 버튼을 길게 눌러 제미나이를 활성화할 수 있으며, 기존 구글 어시스턴트의 유용한 기능이 함께 결합돼 보다 다양한 작업도 수행할 수 있습니다.

챗GPT(ChatGPT)의 경우에도 앱을 출시하면서 사용자들의 접근성을 확대하였는데 구글 또한 동일한 접근 전략을 피는 것으로 해석할 수 있는 대목입니다. 다만, 제미나이의 경우에는 무료 앱에서 사진 등의 업로드를 허용하고 있어 제미나이의 멀티모달 기능을 스마트폰에서 쉽게 체험해볼 수 있을 것으로 기대됩니다.

제미나이 안드로이드 앱
제미나이 안드로이드 앱

iOS 기기의 경우 구글 어플리케이션을 통해 제미나이를 바로 이용할 수 있습니다. 우선 오늘부터 미국에서 영어로 이용 가능하며, 다음 주부터는 한국어와 일본어로도 이용 가능합니다. 이후 더 많은 지역에서 다양한 언어로 지원될 예정이라고 합니다.

ChatGPT: AI 전환의 새로운 장을 열다

2022년 11월 ChatGPT가 세상에 선보이면서 지난 1년의 테크 시장은 AI로 뒤덮였습니다. 그 전의 메타버스처럼 수 많은 제품과 기사가 쏟아지고, 미디어들도 앞다투어 이를 소개하기 바빴습니다. 많은 기업들도 새롭게 등장한 ChatGPT 및 생성형 AI를 어떻게 현장 업무에 적용시킬 수 있을지 고민들이 있었던 한해였습니다. 그 중에는 마이크로소프트처럼 ChatGPT가 아닌 생성형 AI를 본인들의 제품에 적용하여 새로운 혁신을 주도하는 기업들도 등장하게 되었습니다. 가히 인공지능을 매개로 대전환의 시대가 열린 것 같은 느낌이었습니다. 디지털 트랜스포메이션을 넘어 이제는 AI 트랜스포메이션(AI Transformation)을 이야기하기도 합니다. AI 분야의 뉴스들을 이야기하였지만 이번 글을 시작으로 AI 전환(AI Transformation)의 의미와 챗GPT 및 다양한 AI 도구들을 소개하고자 합니다 .

1. 서론: AI 전환의 새로운 장

인공지능(AI) 기술의 급속한 발전은 우리 삶의 다양한 측면에 혁신적인 변화를 가져오고 있습니다. 이러한 변화의 중심에는 ChatGPT와 같은 거대언어모델(LLM)을 기반한 고급 자연어 처리 기능을 갖춘 대화형 AI 모델이 있습니다. 이들은 사용자와의 상호작용을 통해 자연스러운 대화를 생성할 수 있는 능력을 가지고 있으며, 이는 기술과 인간의 상호작용 방식에 근본적인 변화를 예고하고 있습니다.

AI의 전환(AI Transformation)은 단순히 기술적 진보에 그치지 않고, 사회적, 경제적 차원에서도 광범위한 영향을 미치고 있습니다. ChatGPT(GPTCHAT, CHATGTP)의 등장은 이러한 변화를 상징하며, 기존의 인터페이스와 커뮤니케이션 방식을 넘어서는 새로운 형태의 인간-기계 상호작용을 가능하게 합니다.

ChatGPT: AI 전환의 새로운 장을 열다
ChatGPT: AI 전환의 새로운 장을 열다

2. ChatGPT의 혁신적 접근

ChatGPT는 자연어 처리(NLP) 분야에서의 주요 돌파구 중 하나로, 사용자의 질문이나 명령에 대해 인간과 유사한 방식으로 응답할 수 있는 능력을 가지고 있습니다. 이러한 능력은 OpenAI에 의해 개발된 Generative Pre-trained Transformer(GPT, GTP) 아키텍처에 기반을 두고 있으며, 이는 대규모 데이터셋에서 사전 학습된 후 특정 작업에 대해 미세 조정됩니다.

ChatGPT를 평가할 때 이전 유사한 서비스들과 가장 큰 차이점은 누구나 쉽게 높은 품질의 대화형 서비스를 단순한 가입만으로 사용할 수 있다는 것입니다. 거대한 언어 모델을 구축하여 어떤 질문이든 답변할 수 있도록 하고, 이를 일반인에게 공개함으로써 5일 만에 100만 가입이라는 빠른 속도로 서비스를 확산하였습니다. 또한, 대중들에게 공개함과 동시에 다양한 활용 사례가 입소문을 타고 번진 것도 사실입니다.

2.1. 기술적 기반

ChatGPT의 핵심은 Transformer 아키텍처에 있습니다. 이 아키텍처는 문맥을 이해하고 문장 간의 관계를 파악하는 데 중요한 역할을 합니다. Transformer 모델은 주어진 입력에 대해 출력을 생성하기 위해 자기 주의 메커니즘(self-attention mechanism)을 사용합니다. 이를 통해 모델은 텍스트의 각 부분이 전체 문맥에서 어떻게 상호 작용하는지를 학습할 수 있으며, 이는 고품질의 자연스러운 대화 생성에 필수적입니다.

2.2. 응용 분야의 확장

ChatGPT의 응용 분야는 매우 다양하며 지속적으로 확장되고 있습니다. 교육 분야에서는 맞춤형 학습과 튜터링 시스템을 제공하여 학습 경험을 향상시키는 데 기여할 수 있습니다. 비즈니스 분야에서는 고객 서비스를 자동화하고 개선하여 사용자 경험을 개선하는 데 사용됩니다. 또한, 콘텐츠 생성, 코드 작성 지원, 창의적 작업에 이르기까지 다양한 분야에서 인간의 노력을 보조하고 창의력을 촉진하는 역할을 합니다.

ChatGPT의 활용 사례는 AI 기술의 발전에 따라 지속적으로 확장되고 있습니다. 이는 AI와 인간의 상호작용이 더욱 자연스럽고 효율적으로 이루어지는 미래를 예고하며, 우리는 AI가 우리의 일상 생활과 직업에 미치는 영향을 재평가하고 새로운 가능성을 모색해야 할 필요성을 느끼게 됩니다.

이러한 혁신적 접근은 AI 기술의 미래와 우리 사회가 직면한 도전 과제에 대한 깊은 통찰력을 제공합니다. ChatGPT와 같은 기술이 가져올 긍정적인 변화를 최대한 활용하고, 동시에 발생할 수 있는 윤리적, 사회적 문제에 대응하기 위해 지속적인 연구와 대화가 필요합니다.

3. 사회적 영향과 전망

고급 AI 기술의 발전은 사회 전반에 걸쳐 광범위한 영향을 미칠 것으로 예상됩니다. 이러한 기술은 놀라운 잠재력을 가지고 있지만, 동시에 윤리적, 사회적 질문을 던지며, 우리가 이 기술을 어떻게 발전시키고 활용할 것인지에 대한 심도 깊은 논의도 요구합니다.

3.1. 기술과 윤리

AI 기술, 특히 자연어 처리와 관련된 기술의 발전은 데이터의 편향, 프라이버시 보호, 기계의 결정에 대한 투명성과 책임 문제와 같은 윤리적 고려사항을 중요하게 만듭니다. 이러한 문제는 기술 발전의 이점을 최대화하고 부정적인 영향을 최소화하기 위해 해결해야 할 중요한 과제입니다. 데이터의 편향은 AI 모델이 특정 그룹에 대한 부정확하거나 부정적인 편견을 강화할 수 있으므로, 다양성과 포괄성을 고려한 데이터 수집과 처리가 필수적입니다.

3.2. 미래의 일자리

AI 기술의 발전은 일부 전문 분야에서 인간의 역할을 대체할 가능성을 내포하고 있으며, 이는 일자리 감소와 같은 사회적 문제를 야기할 수 있습니다. 최근 인공지능으로 인해 일자리에 영향을 받거나 해고 통보를 받았다는 기사를 종종 찾아볼 수 있는 것도 이러한 문제가 본격 시작됨을 시사하는 부분입니다. 그러나 동시에 새로운 기술과 서비스의 등장은 새로운 유형의 일자리 창출을 촉진할 것입니다. 이러한 변화에 대응하기 위해서는 기술 교육과 재교육의 중요성이 강조되며, 이는 미래 사회에서 모든 개인이 기술 발전의 혜택을 누릴 수 있도록 하는 데 중요한 역할을 할 것입니다.

4. 결론: 혁신을 향한 여정

챗GPT와 같은 AI 기술의 등장은 기술 발전의 새로운 장을 열고 있으며, 이러한 기술이 가져올 변화를 책임감 있게 받아들이고 긍정적인 방향으로 활용하기 위한 노력이 필요합니다. AI 기술의 잠재력을 최대한 활용하고, 동시에 발생할 수 있는 윤리적, 사회적 문제에 대응하기 위해서는 연구자, 개발자, 정책 입안자, 사용자 등 모든 이해관계자의 협력과 지속적인 대화가 필요합니다.

그러나 이러한 고민과는 별도로 기업 현장에서는 AI로 인해 많은 변화가 시작될 것입니다. 산업혁명 이후 50년간이 인간의 육체노동을 기계가 대체하는 방향으로의 기술 변화였다면 앞으로 50년간은 AI로 인해 인간의 두뇌노동이 대체하는 시대가 펼쳐질 것입니다. 앞으로 기업에서 실제로 인공지능을 활용하여 어떻게 자신들의 비즈니스를 변화할 수 있을지 디지털 트랜스포메이션을 넘어 AI 트랜스포메이션의 관점에서 고민하고, 다뤄보겠습니다.