要約:
- 既存のベンチマークはAI生成のクエリや単一ステップのタスク、ダミーツール、テキストのみの対話に依存しており、実世界の問題解決の複雑さを正確に表現していない。
- 上海交通大学と上海AI研究所の研究者チームが、一般ツールエージェント(GTA)ベンチマークを提案し、LLMのツール使用能力をより正確に評価するための設計を行った。
- GTAベンチマークは、実際のデプロイされたツール、多様なカテゴリを持つツール、および現実世界の文脈に密接に似た多モーダル入力を特徴とする229の実世界タスクから構成されている。
- 評価は、ステップバイステップモードとエンドツーエンドモードの両方で行われ、モデルの出力をリファレンスステップと比較することで、モデルの微細なツール使用能力を評価する。
- 結果は、現在のLLMが実世界のタスクにおいて大きな課題を抱えていることを示し、GPT-4やGPT-4oなどのモデルが50%未満のタスクを正しく解決できたことを明らかにした。
- GTAベンチマークは、現在のLLMの実世界のツール使用タスクにおける課題を効果的に示し、LLMの能力をより正確かつ包括的に評価する。将来の研究のための重要なガイドとなる。
感想:
現在のLLMは実世界のタスクにおいて課題を抱えていることが明らかになりましたが、GTAベンチマークはその課題を効果的に示し、LLMの能力をより正確に評価する手法を提供しています。今後の研究において、このベンチマークが重要な指針となることが期待されます。