- Hugging Faceが、2番目のLLM(Large Language Model)リーダーボードをリリース
- 新しいリーダーボードは、様々なタスクにおけるLLMのパフォーマンスをテストするためのより厳しい基準を目指している
- Qwenモデルが上位にランクインし、AlibabaのLLMが優勢を示している
- テストは、知識テスト、極めて長い文脈での推論、複雑な数学能力、指示に従う能力などをカバー
- リーダーボードへのランクインテストは、Hugging Faceのコンピューターでのみ実行される
新しいLLMリーダーボードは、様々なタスクにおけるLLMのパフォーマンスをテストし、AlibabaのQwenモデルが優勢を確認されています。Hugging Faceのオープンソースおよび協力的な性質により、誰もが新しいモデルをテストおよびリーダーボードへの登録のために提出することができます。