구글의 차세대 LLM '제미나이'
구글은 지난 12월 5일 차세대 AI 모델 ‘제미나이(Gemini)’를 공개했습니다. 당초 비영어권에 대한 답변 생성 문제로 2024년 1월 공개하기로 했으나 올해 출시를 강행했습니다.
'제미나이'는 오픈 AI의 GPT-4와 같은 LLM으로 텍스트뿐만 아니라 이미지, 오디오, 코드 등 다양한 유형의 정보를 인식하고 조합해 답변을 생성할 수 있습니다.
구글은 제미나이가 오픈AI의 최신 AI인 챗GPT-4보다 성능이 우수하다며 제미나이는 대규모 다중작업 언어 이해(MMLU)에서 90%의 점수로 인간 전문가 점수인 89.8%를 넘은 첫 AI 모델이라고 밝혔습니다. 여기서 MMLU는 다양한 전문 지식들을 전문가 수준으로 알고 있는지를 테스트하는 방식으로 GPT-4는 이 테스트에서 86.4%의 정답률을 보였습니다.
지금까지 LLM AI 모델을 만드는 방식은 서로 다른 모달리티를 각각 학습시킨 다음, 이를 서로 연결해 일부 기능을 비슷하게 모방하는 수준이었습니다. 때문에 이미지 설명과 같은 일부 작업은 잘 수행할 수 있지만 더 개념적이거나 복잡한 추론을 하는 데는 어려움을 겪을 수 있었는데요. 반면 제미나이는 개발 단계 초기부터 다양한 모달리티에 대한 사전 학습을 통해 멀티모달이 되도록 설계했다고 합니다. 때문에 처음부터 텍스트, 오디오, 이미지, 영상 등 모든 종류의 입력값을 원활하게 이해하고 추론할 수 있다는 것이 구글의 설명입니다.
이번에 공개된 제미나이는 3가지 모델로, 가장 규모가 큰 모델로 복잡한 작업에 적합한 모델인 울트라, 다양한 작업에서 활용하기에 적합한 범용성 모델 프로, 온디바이스에 최적화 된 경량화 모델 나노가 있습니다. 이중 범용성 모델인 프로는 구글의 AI 챗봇 '바드'에 지난 5일부터 바로 탑재되었다고 합니다.
구글 '제미나이' 출시 행사에서 시연 동영상을 공개하며 그 우수성을 증명했는데요, 이 영상에서는 사람이 오리를 그리자 제미나이가 이를 알아차리고 “물에서 수영하고 부리가 있으니 오리”라고 정답을 말합니다. 또 오리를 파랗게 칠하니 “오리에겐 드문 색”이라고 말하는 등 실시간으로 사물을 인식하고 말로 응답하는 놀라운 모습을 보여주었습니다.
하지만 이 영상은 극적 효과를 위해 편집된 영상으로 드러나며 논란이 일고 있습니다. 이 6분 22초짜리 영상은 제미나이의 인식 및 반응 전 과정을 편집 없이 한 번의 컷으로 녹화한 게 아니고 각각의 파트를 따로 촬영한 후 편집한 영상이었던 것입니다. 제미나이가 실제 본 것은 사람이 실시간 그리며 실체를 만들어 가고 있는 사물이 아니라 다 그린 것을 찍은 사진이었다고 합니다. 또한 음성으로 사람과 대화하지도 않았고 하네요. 구글은 올 초 오픈AI ‘챗GPT’ 대항마라며 챗봇 ‘바드’를 내놓고 시연할 때도 오답이 그대로 공개돼 주가가 떨어지는 망신을 당하기도 한만큼 세계 최대 AI 개발 조직을 둔 구글이 챗GPT에 뒤처진 AI 기술 경쟁 국면을 급하게 전환하려다 무리수를 둔 것 아니냐는 분석이 나오고 있습니다.
하지만 구글이 오픈AI GPT 4의 성능을 능가한다고 밝힌 ‘제미나이 울트라’는 내년 출시 예정으로 아직은 미공개 상태인만큼 아직은 조금 더 이 흥미로운 경쟁을 두고 봐야 할 것 같네요👀