본문으로 바로가기
반응형

구글이 발표한 새로운 인공지능 모델 제미나이(Gemini)의 특징과 챗 GPT4와 비교 그리고 조작 논란 및 사용법 관련 내용에 대해 정리했습니다.

제미나이는 처음부터 텍스트와 이미지, 비디오, 오디오와 코드 전반을 원활하게 추론할 수 있는 멀티모달을 위해 설계되었습니다.

제미나이 특징, 사용법, 논란 정리

 

현재 Gemini는 챗GPT-4를 넘어서는 뛰어난 인공지능이라고 거론되고 있으며 한국에서는 제미나이, 제머나이 또는 제미니, 잼미니라고도 불리고 있습니다.

구글은 스스로 제미나이(Gemini)를 가장 유능한 AI 모델이라 소개하며 인공지능 모델의 지식과 문제해결 능력을 테스트하는 MMLU에서 인간전문가를 능가하는 수준을 보였다고 설명합니다.

 

제미나이(Gemini) vs 챗GPT4 벤치마크 비교

MMLU 테스트에서 인간전문가들은 57개의 주제에 대해 답변을 했고 이 전문가들의 정답률은 89.8%였으며 챗GPT-4는 86.4%였습니다.

구글은 제미나이 울트라 버전이 MMLU 테스트에서 정답률 90%을 기록하며 인간전문가를 능가했다고 발표했습니다.

제미나이 벤치마크 비교

 

그리고 제미나이가 다양한 벤치마크에서 획득한 점수와 챗GPT-4가 획득한 점수를 비교해 공개했습니다.

일반적인 분야와 추리, 수학, 코딩 능력에 해당하는 다양한 벤치마크에서 대부분 제미나이가 높게 나왔습니다.

챗GPT4가 높게 나온 벤치마크는 HellaSwag(상식적 추론 및 창의성 테스트) 뿐입니다.

제미나이 벤치마크 결과

 

그 외 멀티모달 테스트 결과도 공개했습니다.

멀티모달은 텍스트, 이미지, 비디오, 오디오 등 여러 종류의 데이터를 동시에 처리할 수 있는 AI 기술입니다.

 

구글은 이 멀티모달 테스트에서도 제미나이가 GPT4를 앞서는 통계를 공개했습니다.

이미지, 비디오, 오디오의 모든 벤치마크에서 앞서는 걸로 나오네요.

제미나이 멀티모달 테스트 결과

 

구글의 제미나이는 처음부터 멀티모달 인공지능 모델로 개발되어 챗 GPT4를 비롯한 다른 인공지능보다 조금 더 우수한 벤치마크 결과를 얻을 수 있었던 것으로 보입니다.

 

챗GPT는 텍스트 중심의 인공지능 모델 시작해 이제 음성이나 이미지도 인식할 수 있게 됐지만 아직 멀티모달 인공지능으로 부르기에는 부족한 게 사실입니다.

구글이 텍스트, 비디오, 오디오 등을 통합한 멀티 모달 인공지능 모델을 완성도 있게 내놓는다면 챗GPT를 넘어설 수도 있을 것으로 보입니다.

 

제미나이(Gemini) 모델 종류

제미나이는 3가지 모델(울트라, 프로, 나노)로 구성됩니다.

  • 제미나이 울트라 : 매우 크고 복작한 작업을 위한 가장 유능하고 큰 모델
  • 제미나이 프로 : 다양하고 광범위한 작업에 활용할 수 있는 모델
  • 제미나이 나노 : 온 디바이스 작업을 위한 효율적인 모델

이렇게 구글은 제미나이 울트라, 제미나이 프로 모델과 함께 모바일과 같은 디바이스에서 실행되는 나노 모델도 발표했습니다.

이 나노 모델은 기기의 성능에 따라 나노1(Nano-1), 나노 2(Nano-2)로 나눠질 예정입니다.

 

 

멀티모달 제미나이가 할수 있는 것

멀티 모달의 장점은 텍스트, 이미지, 비디오, 오디오, 사람 동작 및 제스처 등을 모두 동시에 인식하고 처리할 수 있습니다.

구글은 영상으로 몇가지 예를 선보였습니다.

구글 제미나이 시연영상

 

사용자가 그린 그림이 무엇인지 인식하고 영상에 등장하는 사람, 사물, 동작 등을 인식하는 예를 보여주고 있습니다.

오리 그림을 그리자 제미나이가 오리그림을 바로 인식하고 세계지도에서 특정 국가를 지정하자 해당 국가에 대해 설명을 해줍니다.

구글 제미나이 시연 장면들

손으로 가위바위보 동작을 하자 정확히 인식했으며 두 갈래의 길에 서있는 오리가 어느 쪽을 가면 오리가 또 어느 쪽을 가면 곰을 만나는지 설명해 줍니다.

또 스마트폰에서 재생되고 있는 동영상이 무엇인지도 정확히 인지하고 있네요.

 

이는 제미나이가 이미지와 동영상에 나오는 사물이나 그림, 손 동작을 정확히 인식하고 있다는 걸 보여줍니다.

(하지만 이는 현재 논란이 있습니다. 아래 내용 참고)

 

구글은 개발자들을 위해 12월 13일부터 Google AI Studio와 Google Cloud Vertex AI에서 제미나이 모델을 애플리케이션에 통합할 수 있게 할 예정입니다.

 

제미나이(Gemini) 조작 논란

구글이 제미나이의 성능에 대해 챗 GPT4(비전)와 비교한 결과와 함께 시연 영상도 공개했습니다.

하지만 시연 영상은 제미나이가 빠르게 대답하는 것처럼 편집된 것이며 영상을 보고 바로 이해하는 것 또한 실제로는 스틸 이미지와 텍스트 프롬프트를 입력 후 얻은 결과라는 것이 밝혀졌습니다.

이에 대해 구글은 제미나이의 상호작용에 대해 이해하기 쉽게 만들려고 했을 뿐이라고 설명했습니다.

 

시연영상의 진위를 떠나 결국 구글이 만들고자 하는 제미나이의 방향은 충분히 이해할 수 있었습니다.

구글이 발표한 내용대로 제미나이가 만들어진다면 분명 인공지능 분야에 또 다른 큰 도약이 이뤄질 것으로 기대됩니다.

 

제미나이(Gemini) 사용법 및 출시일 관련 내용

바드의 제미나이 프로

구글을 공식적으로 현재 제미나이가 적용된 바드를 170개 이상의 국가(한국 포함) 및 지역에서 영어로 사용할 수 있다고 설명합니다.

그러나 한국 바드 홈페이지에는 아직 업데이트 내용에 제미나이에 대한 내용이 없습니다.

 

영어로 현재 바드 모델을 물어보면 Google AI의 Gemini Pro 언어모델을 사용하고 있다고 답변합니다.

바드 제미나이 모델 답변 내용

 

그리고 바드에 적용된 제미나이는 현재 텍스트 프롬프트만 지원하며 기타 모달리티(비디오, 오디오, 신체 제스처...)도 곧 제공될 예정이라고 밝혔습니다.

 

바드에 제미나이가 적용되었다면 제미나이 사용법은 따로 없습니다.

그저 지금 바드를 이용하는 것처럼 프롬프트창에 질문을 입력하면 바드는 LLM(대형언어모델)의 세 가지 버전 중 하나인 제미나이를 이용해 응답해줍니다.

 

향후 비디오나 오디오 같은 다른 모달리티도 지원된다면 현재의 이미지 업로드 버튼으로 업로드하거나 URL을 입력하는 방식이 될 것입니다.

 

픽셀8프로 의 제미나이 나노

'픽셀 8 프로' 스마트폰에는 제미나이 나노의 일부 기능이 적용되었습니다.

네트워크 연결없이 녹음된 대화나 인터뷰, 프레젠테이션 내용을 요약해 주는 녹음기 앱을 사용할 수 있고 Gboard의 스마트 답장 기능도 추가되었습니다.

픽셀8프로에 적용된 제미나이 나노

그리고 카메라 기능에도 인공지능 기술이 적용된 비디오 부스트, Timelapse의 Night Sight 기능이 추가되었습니다.

 

제미나이 울트라 AI 모델은 2024년 상반기에 출시될 예정입니다.

 

 

 

구글 바드, 이미지 업로드 기능 활용법 6가지

구글 바드가 이미지 업로드 기능을 지원하면서, 사용자는 이미지 파일을 이용해 바드를 더욱 다양하게 활용할 수 있게 되었습니다. 바드의 이미지 업로드 기능 활용법 6가지를 정리해봤습니다.

hikkumuri.tistory.com

 

챗GPT로 그래프 만들기

챗GPT를 이용하면 그래프도 만들 수 있습니다. 그래프를 만들 수 있는 소스 코드를 생성해 주고 daigr.am 플러그인을 설치하면 챗GPT에서 바로 그래프를 보기 편한 디자인으로 만들어줍니다.

jkblog.co.kr

 

반응형