AppWorld: API ベースのタスクのインタラクティブコーディングのための一貫した実行環境とベンチマークのための AI フレームワーク

大規模言語モデル（LLMs）の指示追従、コーディング、およびツール利用能力の進化により、デジタルライフの自動化の展望と範囲が拡大している。
現行のベンチマークであるTUBとICGBは、複雑なデジタル環境の実態を考慮したリアルなタスクを用いたエージェントの厳密で再現可能な評価を必要とする。
研究者らはAppWorld Engineを提案し、60K行のコードからなる高品質の実行環境を構築。このエンジンは9つのアプリケーションと457のAPIを含み、自律エージェント向けの750の多様で複雑なタスクを提供。
AppWorld Engineは、Gmail、Venmo、Amazon、ローカルファイルシステムなどのアプリケーションを実装し、リアルなAPI操作を行う。
最も強力なモデルであるReAct + GPT4Oは、テストNでTGC 48.8、テストCで30.2を達成。他のモデルは一貫して全てのタスクバリエーションを完了しないことが示された。
AppWorld Engineは、現行のモデルの困難さやLLMsが自動化タスクで遭遇する課題を浮き彫りにし、ユーザーインターフェースの制御、複数エージェント間の調整、デジタルアシスタントにおけるプライバシーと安全性の検証の機会を提供。

AppWorld Engineの提案は、自動化の展望と課題を示し、現行のモデルの困難さが浮き彫りになった。システムのモジュラリティと拡張性は、ユーザーインターフェースの制御、複数エージェントの調整、デジタルアシスタントにおけるプライバシーと安全性の問題の検証に新たな可能性をもたらす。

AppWorld: API ベースのタスクのインタラクティブコーディングのための一貫した実行環境とベンチマークのための AI フレームワーク – MarkTechPost