- GoogleはAI Studioで実験的なGemini-exp-1114モデルを公開しました。
- このモデルはChatbot Arenaでテストされ、LMArenaリーダーボードでトップになりました。
- Gemini-exp-1114はいくつかの質問に正しく回答できなかったが、一部の質問では正しい回答を出力。
- GoogleとOpenAIはモデルの性能向上のために推論スケーリングに取り組んでいる。
GoogleのGemini-exp-1114モデルは一部の質問において正しい回答を出力する一方、いくつかの質問で失敗しました。GoogleとOpenAIはモデルの性能向上に取り組んでおり、今後のAI競争が注目されます。
元記事: https://beebom.com/gemini-model-tops-leaderboard-but-fails-test/