구글의 새로운 AI 모델 Gemini를 소개하였습니다. 다음의 영상들을 통해 어떤 특장점을 가지고 있는지 이야기 드리고자 합니다. 영상만으로는 ChatGPT를 넘가한다는 평이 많았습니다. 또한 교육을 비롯한 몇몇 분야에서는 바로 활용하거나 혁신의 마중물이 될 수 있을 것이다라는 생각도 들었습니다. 키노트를 포함하여 핵심 데모 영상을 보면서 이를 확인해 보시죠.
목차
Gemini: Google’s newest and most capable AI model
- 순다르 피차이 소개: 구글의 세계 정보를 조직하고 모두에게 유용하게 만드는 임무에 대해 논의하며, 정보의 복잡성과 규모가 증가함에 따라 AI의 돌파구가 필요함을 언급합니다.
- 제미니 소개: 데미스 하사비스는 평생 AI 작업에 대한 그의 경험을 언급하며, 제미니를 보편적 AI 모델로 향하는 첫 단계로 소개합니다. AI가 텍스트, 오디오, 이미지, 비디오 등 다양한 미디어 유형을 이해하고 처리할 수 있는 능력의 중요성을 강조합니다.
- 제미니의 기술적 특징:
- 처음부터 멀티모달: 제프 딘과 오리올 비냘스는 처음부터 멀티모달로 설계된 제미니의 독특한 접근 방식을 논의합니다. 이를 통해 다양한 유형의 데이터를 원활하게 처리할 수 있다고 소개합니다.
- 능력: 제미니는 구글에서 가장 크고 능력 있는 모델로, 텍스트, 코드, 오디오, 이미지 및 비디오 처리에 능숙합니다.
- 벤치마크 및 테스팅: 제미니는 다양한 벤치마크에서 뛰어난 성능을 보여주며, 50개의 다른 주제 영역에서 전문가 수준의 인간 성능에 맞추거나 이를 초과합니다.
- 응용 프로그램 및 사용 가능성:
- 구글 제품에 미치는 영향: 순다르 피차이는 제미니가 구글의 모든 제품에 영향을 미칠 잠재력을 언급합니다.
- 제미니의 버전: 일라이 콜린스는 다양한 작업과 기능 수준에 맞게 설계된 제미니의 세 가지 버전 – 울트라, 프로, 나노 – 에 대해 언급합니다.
- 안전성, 책임감, 윤리적 고려사항:
- 다양한 미디어 결합: 툴시 도시와 라일라 이브라힘은 이미지와 텍스트와 같은 다양한 유형의 미디어를 결합하는 것의 함의를 고려하고 AI 개발에서 안전성과 책임을 보장하는 것이 중요함을 강조합니다.
- 정책 개발 및 테스팅: 구글은 잠재적인 해를 방지하기 위해 능동적인 정책을 개발하고 이러한 정책에 대한 엄격한 테스트를 수행합니다.
- 결론:
- AI 개발에서 구글의 역할: 선다르 피차이와 데미스 하사비스는 구글의 AI 돌파구 역사를 되돌아보며, 제미니가 이 전통을 계속 이어가고 있다고 언급합니다.
- 미래에 대한 비전: 연사들은 AI가 지식과 정보를 전 세계 사람들에게 더욱 접근 가능하게 만들 것이라는 낙관적인 전망을 제시합니다.
제미니 소개 영상에서는 AI가 전 세계 모든 사람들에게 유익할 수 있는 잠재력에 대한 긍정적인 전망을 이야기하며, 이는 안전성, 책임감 및 윤리적 고려사항을 염두에 두면서 AI 기술을 발전시키려는 구글의 의지를 강조합니다. 과연 어떤 모습으로 출시될지 궁금해 집니다.
Hands-on with Gemini: Interacting with multimodal AI
다음 영상은 제미니의 특징을 가장 잘 보여주는 시나리오가 포함된 핸즈온 영상입니다. 이런 기술이 보편화된다면 가장 먼저 교육 시장에서 바로 사용할 수 있을 정도로 혁신적인 장면이라 생각됩니다.
- 제미니의 기능 테스트: 비디오는 새로운 멀티모달 인공지능 모델, 제미니의 다양한 기능을 테스트하는 것으로 시작합니다. 제미니에게 일련의 이미지를 보여주고, 보는 내용에 대해 추론하도록 요청합니다.
- 제미니와의 인터랙티브 세션: 비디오는 제미니와의 몇 가지 흥미로운 상호작용을 강조합니다. AI에게 이미지를 보여주고 설명하고 해석하도록 요청합니다.
- 제미니의 반응과 추론:
- 제미니는 이미지에서 본 것을 설명하라는 요청을 받습니다. 제미니는 물속에 있는 오리를 식별하고, 긴 목과 부리를 언급하며, 이것을 청둥오리로 인식합니다.
- AI는 푸른 오리의 희귀성에 대해 논의하지만, 일부 푸른 오리 종의 존재를 인정합니다. 이것을 더 흔한 오리 색상인 갈색, 검정색 또는 흰색과 대조합니다.
- 도전에 응해, 제미니는 힌트를 바탕으로 국가를 맞추는 게임을 성공적으로 수행합니다. 이는 제미니의 지식과 추론 능력을 보여줍니다.
- 창의적 과제:
- 제미니는 본 것을 바탕으로 게임 아이디어를 제안하라는 요청을 받고, 이모티콘을 포함시킬 것을 제안합니다.
- AI는 서술적인 단서에 기반한 동물 추측 게임에 참여하여, 창의적인 개념을 이해하고 생성하는 능력을 보여줍니다.
- 추가적인 도전과 관찰:
- 제미니는 다른 언어를 이해하는 능력을 테스트받습니다. 예를 들어, 중국어로 “오리”라는 단어를 말하는 법을 가르칩니다.
- AI는 또한 그림을 설명하라는 요청을 받고, 예술을 감상하고 해석하는 능력을 보여줍니다.
- 결론: 비디오는 제미니가 시각 이미지부터 창의적 과제에 이르기까지 다양한 유형의 데이터를 이해하고 상호작용할 수 있는 능력을 보여주며 마무리됩니다.
이 비디오는 제미니의 다양한 기능을 종합적으로 보여주며, 다양한 입력에서 이해, 해석 및 상호작용할 수 있는 그 가능성을 강조합니다.
두 가지 영상 이외에도 발표 영상 대부분이 유튜브에 올라와 있습니다. 이들을 하나씩 살펴보시면 역시 구글이라는 생각을 하게하는 제미니 발표였습니다. OpenAI의 ChatGPT와 마이크로소프트의 횡보속에서도 알파고를 비롯한 기술적으로 글로벌 리드하였던 구글의 반격이 어떻게 펼쳐질지 관심있게 지켜보시지요.