- ReMEmbRはLLMs、VLMs、およびretrieval-augmented generationを組み合わせて、ロボットが理論的に考え、行動することを可能にする。
- VLMsは、テキストと画像を同じ埋め込み空間に射影することで、強力な言語理解とビジョン機能を組み合わせたモデルである。
- ReMEmbRは、VLMsとベクトルデータベースを使用して長期的な意味記憶を効率的に構築し、LLMエージェントを使用してその記憶に対して推論を行う。
- ReMEmbRは、ロボティクスアプリケーションでのLLMsとVLMsの利用における多くの課題に対処している。
記事からの要点:
ReMEmbRはロボットに理論的に考えさせ、行動させるプロジェクトで、VLMsとRAGを組み合わせる。
VLMsは言語理解とビジョン機能を組み合わせ、VILAを使用してビデオセグメントをキャプション化し、MilvusDBベクトルデータベースに埋め込む。
LLMエージェントは記憶に対して推論し、ユーザーの質問に回答する。ReMEmbRはロボットの知覚的質問応答と意味的行動を向上させる。
ロボットが長期間展開される環境でReMEmbRを使用する方法を示し、実際のロボットでのデモを行っている。
元記事: https://www.therobotreport.com/remembr-generative-ai-enables-robots-reason-act-says-nvidia/