• AIモデルのパフォーマンスのベンチマークスコアのリーダーボード競争は、モデルの能力の正確な反映よりもマーケティングの演習である可能性がある。
  • 欧州委員会の共同研究センターとスタンフォード大学による別々の報告書では、現在のAI評価プラクティスを批判し、データセットの汚染、バイアスのあるテスト構築、および浅薄なタスク設計によって結果が歪められる可能性があると述べている。
  • スタンフォードの研究者は、モデルの失敗を理解することが高得点を祝うよりも価値があると述べている。
  • AIベンチマークは、モデル評価の透明性、公平性、説明可能性の基準を満たすべきであり、現在のベンチマークは適切な規制を支持するには不一貫で狭すぎると警告している。
  • 政策立案者は、AIモデル評価を行う際にベンチマークの品質を明確にし、最低品質保証のベストプラクティスを参照するよう推進すべきである。

AIベンチマークの信頼性に関する研究は、現在の評価プラクティスにおける課題を浮き彫りにし、将来的なAI開発と規制のために改善が求められています。

元記事: https://www.bankinfosecurity.com/researchers-caution-ai-benchmark-score-reliability-a-27539