要約:
- 大規模言語モデル(LLMs)の指示追従、コーディング、およびツール利用能力の進化により、デジタルライフの自動化の展望と範囲が拡大している。
- 現行のベンチマークであるTUBとICGBは、複雑なデジタル環境の実態を考慮したリアルなタスクを用いたエージェントの厳密で再現可能な評価を必要とする。
- 研究者らはAppWorld Engineを提案し、60K行のコードからなる高品質の実行環境を構築。このエンジンは9つのアプリケーションと457のAPIを含み、自律エージェント向けの750の多様で複雑なタスクを提供。
- AppWorld Engineは、Gmail、Venmo、Amazon、ローカルファイルシステムなどのアプリケーションを実装し、リアルなAPI操作を行う。
- 最も強力なモデルであるReAct + GPT4Oは、テストNでTGC 48.8、テストCで30.2を達成。他のモデルは一貫して全てのタスクバリエーションを完了しないことが示された。
- AppWorld Engineは、現行のモデルの困難さやLLMsが自動化タスクで遭遇する課題を浮き彫りにし、ユーザーインターフェースの制御、複数エージェント間の調整、デジタルアシスタントにおけるプライバシーと安全性の検証の機会を提供。
感想:
AppWorld Engineの提案は、自動化の展望と課題を示し、現行のモデルの困難さが浮き彫りになった。システムのモジュラリティと拡張性は、ユーザーインターフェースの制御、複数エージェントの調整、デジタルアシスタントにおけるプライバシーと安全性の問題の検証に新たな可能性をもたらす。