- 研究者たちは、視覚データに頼らない言語ベースの指示を使用してロボットを誘導するAIシステムを開発
- 視覚観察をテキストのキャプションに変換し、言語モデルがロボットの動きを指示
- ビジョンベースのシステムを凌駕しないが、データが限られている状況で優れた性能を発揮し、視覚入力と組み合わせてパフォーマンスを向上
この研究では、言語ベースの表現を使用することで、大量の合成トレーニングデータを効率的に生成することが可能であり、視覚データが不足している状況でうまく機能します。言語ベースの入力を視覚信号と組み合わせることで、ナビゲーションの性能が向上することが示されました。
元記事: https://neurosciencenews.com/ai-llm-robot-navigation-26324/