- Microsoft Researchが新しいテクニックを導入し、Large Language Models(LLMs)を人間の意図とよりよく整合させることを目指す
- 新しいAI戦略は、アクティブな選好引き出しを活用し、LLMsの効率性と精度を最大化することを目指している
- 過去には、人間のフィードバックからの強化学習(RLHF)がLLMsとユーザーの期待を整合させるための主要な手法であった
- オンラインまたはオフラインで整合プロセスを実行できるが、オンラインの方が新しい選好データを収集することで以前に未踏の言語領域を探索できるが、過学習のリスクがある
- Microsoftの研究者は、SELMと呼ばれるバイレベル目的を提案し、LLMsの効率的な探索を強化し、DPOに比べて新しい推測に対する無選択的な選好を最小化することを目指している
- SELMは、MT-BenchやAlpacaEval 2.0などの主要な命令遵守ベンチマークで性能を向上させ、Zephyr-7B-SFTやLlama-3-8B-Instructなどのモデルに適用すると、注目すべき成績を示す
- この方法は、LLMsが指示をより正確に遵守するだけでなく、より幅広い応答を考慮することを保証し、信頼性の高い言語モデルを提供する
SELMはLLMsの性能向上をもたらし、ユーザーの意図とよりよく整合させることで、より信頼性の高い言語モデルを約束する。この手法は、より確実で有能な言語モデルを提供するために重要な進歩を示している。