• 大規模言語モデル(LLMs)は基本的な計画手順を生成することで有望性を示しているが、複数のアクションの調整や計画が必要とされる複雑なタスクには苦労している。
  • オックスフォード大学と他の研究機関の研究者による新しい研究では、LLMsの非同期計画能力を調査し、先進的なプロンプティング技術が複雑なタスクにおけるLLMsのパフォーマンスを向上させることが示された。
  • 非同期計画には、アクションのシーケンス生成だけでなく、時間的関係の理解、並列実行の最適化、制約条件下での推論が必要とされる。
  • 研究ではAsynchronous WikiHow(AsyncHow)というベンチマークを作成し、GPT-3.5、GPT-4、Cohere Command、LLaMA-2-70B-chat、Mistral-7B-Instructの5つの人気LLMsをテストした。
  • “Plan Like a Graph”(PLaG)はグラフ表現を使用してLLMsが計画問題の構造を理解するためのプロンプティング技術であり、非同期計画タスクでのLLMsのパフォーマンスを改善できることが示された。

思考:
非同期計画は複雑なタスクにおいてLLMsの能力を向上させるための重要な課題であり、PLaGがグラフ表現を用いることでモデルのパフォーマンス向上に成功していることが興味深い。しかし、現行のLLMsは依然として複雑なシナリオに苦戦しており、訓練中に見たステップ数よりも多いタスクに対しては性能が著しく低下することが明らかになった。PLaGはLLMsの計画能力を向上させるための有望な方向性であり、他の技術との統合やリソース制約、マルチモダリティの追加などを検討することが提案されている。

元記事: https://bdtechtalks.com/2024/08/12/thinking-in-graphs-improves-llms-planning-abilities-but-challenges-remain/