tinyBenchmarks: ICML 2024 に向けて、より少ない例で LLM を評価

tinyBenchmarks: ICML 2024 に向けて、より少ない例で LLM を評価 – IBM Research

ByManagetech

6月 22, 2024

大規模言語モデル（LLMs）の多様性により、さまざまな言語モデルの能力を徹底的にテストする多様なベンチマークが作成された。
これらのベンチマークには数万の例が含まれ、LLMsの評価が非常に高価になる。
本論文では、複数の主要なベンチマークでLLMのパフォーマンスを評価するために必要な評価数を削減する戦略を調査している。
たとえば、14Kの例からなる人気の多肢選択QAベンチマークであるMMLUのLLMのパフォーマンスを正確に推定するには、このLLMを100の選別された例で評価するだけで十分であることを示している。
Open LLM Leaderboard、MMLU、HELM、AlpacaEval 2.0などの人気ベンチマークの評価ツールと小さなバージョンを公開している。
我々の経験的分析は、これらのツールと小さなベンチマークがオリジナルの評価結果を信頼性高くかつ効率的に再現するのに十分であることを示している。

この論文では、大規模言語モデルのパフォーマンス評価の効率性を向上させるための戦略が提案されています。小規模なサンプルやツールを使用することで、元の評価結果を信頼性高く再現できることが示されています。ベンチマークの多様性と評価の高価さへの対処法として、実用的で興味深いアプローチが示されていると感じます。

元記事: https://research.ibm.com/publications/tinybenchmarks-evaluating-llms-with-fewer-examples–1

tinyBenchmarks: ICML 2024 に向けて、より少ない例で LLM を評価 – IBM Research

ByManagetech

By Managetech

Related Post

Immerso と Everdome が提携し、AI を活用した体験を通じてメタバースのイノベーションを推進 – Intelligent CIO APAC

Google が Gemini 2.0 Pro、Flash-Lite を発表、推論モデル Flash Thinking を YouTube、マップ、検索に接続 | VentureBeat

AIニュース: DeepSeekの躍進はAIの巨人に役立つだろうとウォール街のアナリストが語る – The Economic Times

You missed

ホライゾンの俳優アシュリー・バーチは、ソニーのAIアロイのビデオを見て「ゲームパフォーマンスという芸術形式に不安を感じた」と語る – IGN

JFrogとNVIDIAが提携し、安全なAI導入を強化

Mistral AI が、わずかなパラメータで GPT-4o Mini を上回る新しいオープンソースモデルをリリース | VentureBeat

AI とヒューマノイドが 2025 年のロボットのトップトレンドに | ASSEMBLY