• 大規模言語モデル(LLMs)の多様性により、さまざまな言語モデルの能力を徹底的にテストする多様なベンチマークが作成された。
  • これらのベンチマークには数万の例が含まれ、LLMsの評価が非常に高価になる。
  • 本論文では、複数の主要なベンチマークでLLMのパフォーマンスを評価するために必要な評価数を削減する戦略を調査している。
  • たとえば、14Kの例からなる人気の多肢選択QAベンチマークであるMMLUのLLMのパフォーマンスを正確に推定するには、このLLMを100の選別された例で評価するだけで十分であることを示している。
  • Open LLM Leaderboard、MMLU、HELM、AlpacaEval 2.0などの人気ベンチマークの評価ツールと小さなバージョンを公開している。
  • 我々の経験的分析は、これらのツールと小さなベンチマークがオリジナルの評価結果を信頼性高くかつ効率的に再現するのに十分であることを示している。

この論文では、大規模言語モデルのパフォーマンス評価の効率性を向上させるための戦略が提案されています。小規模なサンプルやツールを使用することで、元の評価結果を信頼性高く再現できることが示されています。ベンチマークの多様性と評価の高価さへの対処法として、実用的で興味深いアプローチが示されていると感じます。

元記事: https://research.ibm.com/publications/tinybenchmarks-evaluating-llms-with-fewer-examples–1