• AIエージェントは、大規模な言語モデル(LLM)やビジョン言語モデル(VLM)などの基本モデルを使用して、自然言語の命令を受け取り、複雑な目標を自律的または半自律的に追求する。
  • 現在のエージェントのベンチマークと評価プラクティスには、実世界の応用における有用性を妨げるいくつかの欠点がある。
  • 研究者は、エージェントの評価にコスト制御が欠如していると指摘しており、エージェントの評価はコストを制御する必要がある。
  • 研究者は、精度と推論コストのパレート曲線を視覚化し、これら2つのメトリクスについてエージェントを共同で最適化する手法を提案している。
  • AIエージェントの推論コストを評価することは難しいが、実世界のアプリケーションを開発する際には重要な役割を果たす。

研究者の指摘によれば、エージェントの評価は精度だけでなくコストも制御する必要があります。実際のアプリケーションでは、モデルとテクニックを選択する際に推論コストが重要な要素となります。エージェントのベンチマークにはショートカットが存在し、これらを防ぐためには適切なホールドアウトテストセットが必要です。

元記事: https://venturebeat.com/ai/ai-agent-benchmarks-are-misleading-study-warns/