• Microsoftは、Windows Agent Arenaというベンチマークを開発し、AIアシスタントがWindowsユーザーをどのようにサポートできるかを示す
  • ベンチマークは、Windows PC上でのAIアシスタントのパフォーマンスを明示的にテストする
  • テストされるアイテムには、Microsoft EdgeやGoogle ChromeなどのWebブラウザ、Explorerなどのシステム機能、Visual Studio Code、Notepad、Paint、時計などのアプリが含まれる
  • テストには150種類の異なる操作が含まれている
  • AIアシスタントの総合スコアは19.5%であり、人間の成功率は74.5%である

私の考え:MicrosoftのWindows Agent Arenaは、AIアシスタント開発者に最新の開発のパフォーマンスを良い指標を提供しています。ただし、AIエージェントの進化がさらに必要であり、Windowsユーザーを納得させるには時間がかかるかもしれません。

元記事: https://www.techzine.eu/news/applications/124406/microsoft-launches-benchmark-to-improve-performance-of-ai-agents/