- 大規模言語モデル(LLM)は、構築に数億または数兆のパラメータが必要なため、データにアクセスするための法的費用、計算能力のコスト、エネルギー消費、水の必要性、トレーニングアルゴリズムの開発に必要な多数のコーダーなど、多くの面で「安く」ない。
- ワシントン大学セントルイス校のような大規模な機関のアクセスがない場合、研究者や親が特定のタスクを効率的に行いたい場合、自分専用のLLMを構築することは困難である。
- WashUの研究者は、大規模言語モデルを指示する自律エージェントを構築することで、一連のタスクごとに効果的な指示を生成し、他のLLMの推論プロセスを改善することができることを示した。
- この「エージェント」は、ウェブからの指示を考える大規模LLMであり、指示を生成して小さなLLMの推論を導く。これにより、大規模なLLMを1回使用し、指示を小さなLLMに引き継がせることで、コスト効率の高い方法で生成AIを実行できる。
- 「Zero-Shot AgentInstruct」と呼ばれるこの手法は、言語処理タスクでテストされ、他のゼロショットプロンプティング手法と比較して優れたパフォーマンスを示した。
私の考え:この研究は、大規模言語モデルを使用して他のモデルの推論プロセスを改善する新しい方法を示しています。指示を生成してタスクを分解し、小さなモデルに理解させることで、コストを削減しながら推論能力を向上させることができるという点で非常に興味深いアプローチだと思います。