要約:
- Abacus.AI、ニューヨーク大学、Nvidia、メリーランド大学、南カリフォルニア大学のチームが新しいベンチマーク「LiveBench」を開発
- LiveBenchは汚染されていないテストデータを提供し、数学、コーディング、推論、言語、指示に従う、データ解析などの多様な課題を含む
- ベンチマークのリリースには、Yann LeCunやAbacus.AIのColin White、NvidiaのSiddhartha Jain、学術関係者らが参加
- LiveBenchは毎月新しい質問をリリースし、テストデータの汚染を最小限に抑える
- LiveBenchは18のタスクを提供し、難易度は易しいものから最も難しいものまで
感想:
LiveBenchの開発は、既存のLLMベンチマークの限界を克服するための重要な取り組みであり、テストデータの汚染を防ぐために新しい質問を定期的に提供するアプローチは革新的だと感じます。さらに、ベンチマークの難易度や多様性を考慮して新しいタスクを追加することで、モデルの総合的な能力を評価する手法として期待されます。
元記事: https://venturebeat.com/ai/livebench-open-ai-model-benchmark-contamination-free-test-data/