要約:

  • Abacus.AI、ニューヨーク大学、Nvidia、メリーランド大学、南カリフォルニア大学のチームが新しいベンチマーク「LiveBench」を開発
  • LiveBenchは汚染されていないテストデータを提供し、数学、コーディング、推論、言語、指示に従う、データ解析などの多様な課題を含む
  • ベンチマークのリリースには、Yann LeCunやAbacus.AIのColin White、NvidiaのSiddhartha Jain、学術関係者らが参加
  • LiveBenchは毎月新しい質問をリリースし、テストデータの汚染を最小限に抑える
  • LiveBenchは18のタスクを提供し、難易度は易しいものから最も難しいものまで

感想:

LiveBenchの開発は、既存のLLMベンチマークの限界を克服するための重要な取り組みであり、テストデータの汚染を防ぐために新しい質問を定期的に提供するアプローチは革新的だと感じます。さらに、ベンチマークの難易度や多様性を考慮して新しいタスクを追加することで、モデルの総合的な能力を評価する手法として期待されます。


元記事: https://venturebeat.com/ai/livebench-open-ai-model-benchmark-contamination-free-test-data/