- Microsoftは、Windows Agent Arenaというベンチマークを開発し、AIアシスタントがWindowsユーザーをどのようにサポートできるかを示す
- ベンチマークは、Windows PC上でのAIアシスタントのパフォーマンスを明示的にテストする
- テストされるアイテムには、Microsoft EdgeやGoogle ChromeなどのWebブラウザ、Explorerなどのシステム機能、Visual Studio Code、Notepad、Paint、時計などのアプリが含まれる
- テストには150種類の異なる操作が含まれている
- AIアシスタントの総合スコアは19.5%であり、人間の成功率は74.5%である
私の考え:MicrosoftのWindows Agent Arenaは、AIアシスタント開発者に最新の開発のパフォーマンスを良い指標を提供しています。ただし、AIエージェントの進化がさらに必要であり、Windowsユーザーを納得させるには時間がかかるかもしれません。