• GoogleはAI Studioで実験的なGemini-exp-1114モデルを公開しました。
  • このモデルはChatbot Arenaでテストされ、LMArenaリーダーボードでトップになりました。
  • Gemini-exp-1114はいくつかの質問に正しく回答できなかったが、一部の質問では正しい回答を出力。
  • GoogleとOpenAIはモデルの性能向上のために推論スケーリングに取り組んでいる。

GoogleのGemini-exp-1114モデルは一部の質問において正しい回答を出力する一方、いくつかの質問で失敗しました。GoogleとOpenAIはモデルの性能向上に取り組んでおり、今後のAI競争が注目されます。

元記事: https://beebom.com/gemini-model-tops-leaderboard-but-fails-test/