문자·음성·이미지를 동시에 처리해 인간 이상으로 자연스럽게 소통할 수 있는 GPT-4를 뛰어넘는 성능의 멀티모달(multimodal) AI '제미니(Gemini)'가 출시된다.
본문 바로가기
시사, 경영

문자·음성·이미지를 동시에 처리해 인간 이상으로 자연스럽게 소통할 수 있는 GPT-4를 뛰어넘는 성능의 멀티모달(multimodal) AI '제미니(Gemini)'가 출시된다.

by 소식쟁이2 2023. 12. 8.

문자·음성·이미지를 동시에 처리해 인간 이상으로 자연스럽게 소통할 수 있는 GPT-4를 뛰어넘는 성능의 멀티모달(multimodal) AI '제미니(Gemini)'가 출시된다.

미국 현지시간으로 2023년 12월 6일 구글 딥마인드가 멀티모달 AI '제미니(Gemini)'를 출시했습니다. 문자·음성·화상을 동시에 처리하는 것이 가능하며 최상위 모델에서는 GPT-4를 넘는 성능을 달성하고 있으며, 동시에 공개된 핸즈온(hands-on) 동영상에서 매우 자연스러운 응답을 하고 있는 모습을 확인할 수 있습니다.

 *멀티모달 AI(multimodal AI)란, 텍스트뿐만 아니라 이미지, 소리, 영상 등 다양한 형태의 데이터를 입력으로 받아 처리할 수 있는 AI를 말한다.

 

Every technology shift is an opportunity to advance scientific discovery, accelerate human progress, and improve lives. I believe the transition we are seeing right now with AI will be the most profound in our lifetimes, far bigger than the shift to mobile or to the web before it. AI has the potential to create opportunities — from the everyday to the extraordinary — for people everywhere. It will bring new waves of innovation and economic progress and drive knowledge, learning, creativity and productivity on a scale we haven’t seen before.

That’s what excites me: the chance to make AI helpful for everyone, everywhere in the world.


Gemini는 "Ultra" "Pro" "Nano"라는 세 가지 모델로 출시되었습니다. 각각의 모델에 대해서는 아래와 같이 설명되어 있습니다.

 ・Gemini Ultra : 매우 복잡한 작업에 대응하는 가장 크고 유능한 모델이며, 2024년 이후에 이용 가능해질 예정이라고 합니다.
 ・Gemini Pro : 폭넓은 작업에 대응하기 위한 최선의 모델이며, 발표와 동시에 구글의 채팅 AI인 'Bard'가 제미니 프로 기반으로 업그레이드되어 이미 이용 가능하게 되었습니다.
 ・Gemini Nano : 장치에서의 작업을 위한 가장 효율적인 모델입니다. 발표와 동시에 Pixel 8 Pro에서 이용 가능하게 되어 있습니다.

이 중 최상위 모델인 Gemini Ultra의 성능은 아래 그림과 같습니다. 일반적인 성능을 측정하는 벤치마크 「MMLU」에서 GPT-4 뿐만 아니라 인간의 전문가를 넘어서는 점수를 보여주 것 외에 많은 지표에서 GPT-4를 넘어서고 있습니다.
제미니는 멀티모달 AI로 문자뿐만 아니라 이미지·무비·음성을 동시에 처리하는 것이 가능합니다. 멀티모달 관련 벤치마크에서는 모든 지표에서 GPT-4V를 상회하고 있습니다.


실제로 Gemini를 사용하여 성능을 확인하는 핸즈온 동영상이 공개되어 있습니다.

Hands-on with Gemini: Interacting with multimodal AI - YouTube
https://youtu.be/UIZAiXYceBI?si=kw0VS3K7sWHaziVt

 

 

"뭐가 보여요?"라고 음성으로 질문하자 "구불구불한 선이 보여요."라고 Gemini가 대답했습니다.
선을 그려서 다시 물어보면 '나한테는 새처럼 보여요'라고 대답이 변화.

물줄을 넣으면 오리라고 대답해 주고 있습니다.
오리를 파랗게 칠해가면 Gemini가 오리 색깔은 파랗지 않다는 것을 알려줍니다.

그래서 장난감 오리를 꺼내 '정말인가?'라고 물었다.

Gemini는 "파란 오리는 제가 생각했던 것보다 일반적인 것 같네요"라고 견해를 고쳤습니다.
소재를 추측하도록 부탁하면 「고무나 플라스틱으로 보입니다」라고 하는 것으로, 지극히 자연스럽게 인간이라고 대답할 수 있습니다.

다음은 세계지도를 보여주고 '지금 보이는 것부터 게임을 생각해'라고 부탁해 보겠습니다.
Gemini는 국가 맞춤 게임을 제안하고 바로 첫 번째 문제를 출제했습니다. 캥거루, 코알라, 그레이트 배리어 리프의 고향'이라고 세 가지 힌트를 줍니다.
호주를 가리키면 정답이라고 말해줬어요.

컵 밑에 공을 넣으면 아직 아무 말도 안 했는데 '컵 밑에 있는 종이 공을 찾게 하려는군요.'라고 추측했습니다.
컵을 재빠르게 조작해서 헷갈리려고 노력해봤는데 Gemini는 맞게 왼쪽 컵입니다라고 대답하고 있어요.

손 제스처도 추측에 성공했습니다.
털실 2개 보여주고 작품 예시를 부탁해볼게요. 초록색과 분홍색 털실이라고 '드래곤후르츠' 등 세 가지 예로 제안합니다.
털실 색상에 맞게 작품 예시 이미지를 생성해 줍니다.

갈림길 일러스트를 준비하고 "어느 쪽으로 가야 하나요?"라고 묻자 제미니는 상황을 정확히 추측하며 "왼쪽으로 가야 해요"라고 대답했습니다.
점과 번호뿐인 일러스트를 보여주면 '이건 게 그림이에요'라는 것.

번호순으로 점과 점을 선으로 묶어가면 멋지게 게 그림이 완성되었습니다.
차의 형태에서 '더 빠른 차'를 맞힐 수도 있습니다.

'어느 롤러코스터가 더 재밌을 것 같아?'라는 질문에도 대답할 수 있습니다.
'적절한 대사를 생각해'라고 했더니 '꺄악!' 이렇게 좋은 느낌의 대사를 생성해주었습니다.

기타 일러스트를 보여주면 어쿠스틱 기타 음악을 틀어줍니다.
앰프를 연결하면 일렉트릭 기타 음악으로 변환합니다.

등등


Gemini는 이미 Pro 모델이 Bard에 탑재되어 있는 것 외에, Pixel 8 Pro로 Nano 모델을 이용할 수 있게 되어 있습니다. 개발자를 위한 Gemini API는 2023년 12월 13일부터 제공될 예정이며 API를 통해 Gemini Pro에 접근할 수 있다고 합니다. Gemini Ultra에 대해서는 2024년 이후의 제공을 예정하고 있다고 기술되어 있습니다.

*재미있거나 도움이 되셨다면 '구독' 꾹 눌러 주시기를 부탁드립니다. 늘 행복하세요.

Gemini - Google DeepMind
https://deepmind.google/technologies/gemini/

Introducing Gemini: Google’s most capable AI model yet
https://blog.google/technology/ai/google-gemini-ai/

 

Gemini - Google DeepMind

Gemini is built from the ground up for multimodality — reasoning seamlessly across image, video, audio, and code.

deepmind.google

 

Introducing Gemini: our largest and most capable AI model

Gemini is our most capable and general model, built to be multimodal and optimized for three different sizes: Ultra, Pro and Nano.

blog.google

 

반응형

댓글