본문 바로가기
IT 수다

구글 제미나이 (Google Gemini) AI 언어 모델 분석, 사용법 소개

by 아프리카치타 2023. 12. 8.

 

 

구글 제미나이 Google Gemini 분석
구글 제미나이 Google Gemini 분석

 

 

역시 구글이다. 전 세계가 Chat GPT에 빠져있던 12월의 어느 날 밤, 구글은 AI 언어 모델 제미나이(Gemini)를 발표했다. 그 성능은 Chat GPT를 뛰어넘는 것은 물론 사람을 능가한다고 한다. 지지부진하던 구글 주가도 오래간만에 폭등했다. (구글 주식은 없다ㅠ) 구글의 야심작, 제미나이에 대해 분석해 보겠다.

 

1. 구글 AI 언어 모델 제미나이 소개

구글 제미나이 공식 홈페이지 (클릭)
구글 제미나이 공식 홈페이지 (클릭)

 

 

구글 제미나이 (Google Gemini)는 미국 현지 시각으로 12월 6일에 발표되었다. 구글 리서치(Google Research) 등 구글 전반에 걸친 대규모 팀 협업의 결과로 탄생했으며 처음부터 멀티모달(Multi Modal)로 설계되었다.

 

즉 텍스트, 이미지, 오디오, 동영상, 코드 등 다양한 유형의 정보를 일반화하고, 원활하게 이해하며, 여러 정보를 동시에 조합하여 활용할 수 있다는 의미다.

 

 

 

멀티모달이란?

모달 (=모달리티, modality)은 의사소통 채널을 말한다. 예를 들어 우리가 PC에 입력할 때 사용하는 키보드나 마우스 등이 모달리티를 위한 디바이스라고 할 수 있다.  멀티 모달은 시각, 청각, 언어 등 다양한 방식으로 상호 작용할 수 있는 방식을 말한다. 즉 우리가 간단히 타이핑으로 질문하기만 해도 이미지 생성, 음성 인식 등 다양한 방식으로 활용 가능하다는 것. 

 

2. 구글 제미나이 성능

 

구글 제미나이는 챗 GPT (Chat GPT) 성능은 물론 인간의 두뇌 역량을 능가하는 저력을 보여준다. 이는 구글이 공개한 제미나이 기술 보고서에 잘 드러나 있다.

 

Gemini 기술보고서 (클릭)
Gemini 기술보고서 (클릭)

 

 

제미나이 울트라는 수학, 물리학, 역사, 법률, 의학, 윤리 등 총 57개의 주제를 복합적으로 활용해 문제 해결 능력을 평가하는 MMLU(massive multitask language understanding; 대규모 다중작업 언어 이해) 테스트에서 90.04%의 점수를 기록했다.

 

Chat GPT 4가 86.4%를 기록했고, 인간 전문가는 89.8%를 기록했다. Chat GPT와 인간 전문가보다 성능이 우수한 것이다.

 

MMLU 테스트 벤치마크 (구글 Gemini vs 챗GPT-4)
MMLU 테스트 벤치마크 (구글 Gemini vs 챗GPT-4)

 

 

그 밖에 추론, 수학, 코딩, 이미지, 비디오, 오디오 등 다양한 멀티모달 벤치마크에서도 Chat GPT를 능가하는 점수를 기록했다. 자세한 테스트 결과는 위의 Gemini 기술보고서에 잘 나와있다.

 

 

 

3. 제미나이 기능

 

  • 텍스트, 이미지, 오디오에 대한 이해 

제미나이는 텍스트, 이미지, 오디오 등을 동시에 인식하고 이해하도록 훈련되었다. 따라서 미세한 차이의 정보도 잘 이해하고 복잡한 주제와 관련된 질문에도 답변할 수 있다. 특히 수학과 물리학의 추론에 대한 설명에 탁월하다.

 

아래 차트를 던져주고 질문을 해 보았다.

 

"이 차트에서 눈에 띄는 데이터 요소와 그 의미를 찾고 분석해 줘. 그런 다음 표시된 모든 데이터에 대해 표로 정리해 줘."

(예시) 차트 프롬프트
(예시) 차트 프롬프트

 

그러면 이렇게 아래처럼 표로 정리해 주고, 분석해 준다.

 

"눈에 띄는 데이터 포인트는 미국의 매립된 플라스틱 폐기물 비율로, 73%에 달합니다. 이는 다른 국가 및 지역보다 훨씬 높습니다. 미국은 다른 국가 및 지역보다 플라스틱 폐기물을 재활용하거나 소각하는 데 많은 노력을 기울이지 않고 있습니다."

(예시) 차트 프롬프트 질문에 대한 답변
(예시) 차트 프롬프트 질문에 대한 답변

 

 

아래처럼 수학 문제를 이미지로 던져줘도 다 풀어낸다.

(예시) 수학 문제 질문 및 답변
(예시) 수학 문제 질문 및 답변

 

 

 

아래처럼 비디오를 보여주면 비디오 내용에 대해서 설명하고, 분석해 준다. 아래 예시는 구글 제미니가 동영상 안의 축구 선수를 보고, 볼 트래핑 능력에 대해 분석한 내용이다.

 

(예시) 동영상 질문 및 답변
(예시) 동영상 질문 및 답변

 

 

 

  • 정교한 추론

제미나이의 정교한 멀티모달 추론 기능은 복잡한 형태의 텍스트 및 시각적 정보를 이해하는 데 도움이 된다. 따라서 방대한 양의 데이터 속에서 식별하기 어려운 지식을 발견하는 데 뛰어난 능력을 발휘한다.

 

 

 

 

정보를 읽고, 필터링하고, 이해하여 수십만 개의 문서에서 인사이트를 추출하는 이 엄청난 능력은 과학에서 금융에 이르기까지 다양한 분야에서 새로운 혁신을 이끌어내는 데 도움이 될 것이다.

 

 

아래처럼 인간의 유머 (밈, meme)도 그림 한 장만 봐도 이해하고 설명하는 능력을 갖추었다.

 

(예시) meme 질문 및 답변
(예시) meme 질문 및 답변

 


  • 강화된 코딩 

 

제미나이는 파이썬, 자바, C++, Go 등 세계에서 가장 인기 있는 프로그래밍 언어로 작성된 고품질 코드를 이해하고, 설명하고, 생성할 수 있다. 다양한 언어를 다루고 복잡한 정보를 추론할 수 있는 능력을 통해 제미나이는 세계 최고 수준의 코딩 기반 모델 중 하나로 자리 잡을 것이다.

 

 

아래처럼, 프롬프트 이미지를 제시해 주면, 그것을 코드로 변환하고, 그래프를 렌더링 하여 보여준다.

 

(예시) 코딩 질문 및 답변
(예시) 코딩 질문 및 답변

 

 

 

 

4. 제미나이 종류 및 사용법

 

제미나이는 크게 제미나이 울트라, 프로, 나노로 나뉜다. 

 

  • 제미나이 울트라(Gemini Ultra): 매우 복잡한 작업에 적합한 가장 유용하고 규모가 큰 모델

제미나이 울트라는 가장 고도화된 성능을 자랑하며, 내년 초 '바드 어드밴스드(Bard Advanced)'라는 이름으로 바드에 탑재될 예정이다.

 

현재 OpenAI가 GPT-4의 이용료가 한 달에 20달러 인 것처럼, 구글 역시 제미나이 울트라를 유료 서비스로 내놓을 것이라고 예상한다.

 

 

  • 제미나이 프로(Gemini Pro): 다양한 작업에서 확장하기에 가장 적합한 모델

12월 6일 발표 동시에 구글 AI 챗봇 '바드(Bard)'에 탑재되었다. 한국을 포함한 170개 국가에서 영어로 이용할 수 있다. 

 

구글 바드 연결 링크 (클릭)
구글 바드 연결 링크 (클릭)

 

 

즉 제미나이를 지금 사용해 보려면 구글 바드에 접속하여 사용하는 방법이 유일하며,

구글 바드 사용법은 아래 링크를 클릭하여 참고하면 된다. ↓

 

https://cheetah-money.tistory.com/40

 

구글 바드(google Bard) VS 챗 지피티(Chat gpt) 비교 분석

구글판 AI 인공지능 챗봇 서비스, 바드(Bard)가 출시됐다. 구글도 챗GPT에 질세라 바드(Bard)라는 이름으로 생성형 AI 서비스를 공개한 것. 과연 챗 GPT와 바드, 어느 쪽이 더 성능이 좋을까? 비교 분석

cheetah-money.tistory.com

 

 

  • 제미나이 나노(Gemini Nano): 온 디바이스 작업에 가장 효율적인 모델

제미나이 나노는 휴대폰에서 가볍게 활용하는 On device 방식으로 출시될 것이라고 하며, 구글이 올해 10월에 발표한 최신 스마트폰인 픽셀 8 프로 Pixel 8 Pro에 탑재 예정이다.

댓글