要約:

  • 大規模言語モデル(LLMs)の指示追従、コーディング、およびツール利用能力の進化により、デジタルライフの自動化の展望と範囲が拡大している。
  • 現行のベンチマークであるTUBとICGBは、複雑なデジタル環境の実態を考慮したリアルなタスクを用いたエージェントの厳密で再現可能な評価を必要とする。
  • 研究者らはAppWorld Engineを提案し、60K行のコードからなる高品質の実行環境を構築。このエンジンは9つのアプリケーションと457のAPIを含み、自律エージェント向けの750の多様で複雑なタスクを提供。
  • AppWorld Engineは、Gmail、Venmo、Amazon、ローカルファイルシステムなどのアプリケーションを実装し、リアルなAPI操作を行う。
  • 最も強力なモデルであるReAct + GPT4Oは、テストNでTGC 48.8、テストCで30.2を達成。他のモデルは一貫して全てのタスクバリエーションを完了しないことが示された。
  • AppWorld Engineは、現行のモデルの困難さやLLMsが自動化タスクで遭遇する課題を浮き彫りにし、ユーザーインターフェースの制御、複数エージェント間の調整、デジタルアシスタントにおけるプライバシーと安全性の検証の機会を提供。

感想:

AppWorld Engineの提案は、自動化の展望と課題を示し、現行のモデルの困難さが浮き彫りになった。システムのモジュラリティと拡張性は、ユーザーインターフェースの制御、複数エージェントの調整、デジタルアシスタントにおけるプライバシーと安全性の問題の検証に新たな可能性をもたらす。

元記事: https://www.marktechpost.com/2024/08/01/appworld-an-ai-framework-for-consistent-execution-environment-and-benchmark-for-interactive-coding-for-api-based-tasks/