• Hugging Faceが、2番目のLLM(Large Language Model)リーダーボードをリリース
  • 新しいリーダーボードは、様々なタスクにおけるLLMのパフォーマンスをテストするためのより厳しい基準を目指している
  • Qwenモデルが上位にランクインし、AlibabaのLLMが優勢を示している
  • テストは、知識テスト、極めて長い文脈での推論、複雑な数学能力、指示に従う能力などをカバー
  • リーダーボードへのランクインテストは、Hugging Faceのコンピューターでのみ実行される

新しいLLMリーダーボードは、様々なタスクにおけるLLMのパフォーマンスをテストし、AlibabaのQwenモデルが優勢を確認されています。Hugging Faceのオープンソースおよび協力的な性質により、誰もが新しいモデルをテストおよびリーダーボードへの登録のために提出することができます。

元記事: https://www.tomshardware.com/tech-industry/artificial-intelligence/chinese-llms-storm-hugging-faces-chatbot-benchmark-leaderboard-alibaba-runs-the-board-as-major-us-competitors-have-worsened