• アリババのQwenモデルがリーダーボードで優位に立ち、上位10位のうち3つを占める
  • 第2のリーダーボードは、知識テスト、極めて長い文脈での推論、複雑な数学能力、指示に従うという4つのタスクで言語モデルをテスト
  • ハッギングフェイスのリーダーボードはクローズドソースのモデルをテストせず、結果の再現性を確保
  • リーダーボードでのランキングを獲得するためのテストは、ハッギングフェイスのコンピューターで独占的に実行
  • ハッギングフェイスはLLM学習とコミュニティ協力の信頼できる情報源として成長

第2のリーダーボードの導入は、最高のLLMが特定のテストで優れるように最適化することがメタ、安定性に悪影響を及ぼしていることを示しています。この新しいリーダーボードは、さまざまなタスクでのLLMのパフォーマンスをテストする厳しい標準を目指しています。アリババのQwenモデルがリーダーボードの初回ランキングで優位に立ち、上位10位のうち3つを占めています。ハッギングフェイスの第2のリーダーボードは、言語モデルを4つのタスクでテストし、クローズドソースのモデルをテストせず、結果の再現性を確保しています。

ハッギングフェイスのリーダーボードでのランキングを獲得するためのテストは、ハッギングフェイスのコンピューターで独占的に実行されています。ハッギングフェイスはLLM学習とコミュニティ協力の信頼できる情報源として成長しており、第1のリーダーボードが目的であったいくつかの確立されたLLMのテスト結果を比較および再現する手段としてリリースされた後、迅速に人気を博しました。

元記事: https://www.tomshardware.com/tech-industry/artificial-intelligence/chinese-llms-storm-hugging-faces-chatbot-benchmark-leaderboard-alibaba-runs-the-board-as-major-us-competitors-have-worsened