要約:
- 研究者らは、Self-Evolved Reward Learning(SER)を導入し、大規模言語モデル(LLMs)のアライメントトレーニングにおける人間ラベル付きデータの必要性を削減する手法を提案
- SERでは、最初に少量の人間アノテーションデータでリワードモデル(RM)をトレーニングし、その後自己ラベル付き例を使用してRMを改善。反復的な”フィードバック後トレーニング”ループを通じて、RMは自己進化し、高品質と低品質の応答を区別する能力を洗練
- データフィルタリング技術を導入し、RMトレーニングの段階ごとに変更し、信頼性の高い自己ラベル付き例を特定。これにより、効率的で堅牢なRMトレーニングが可能
- SERにより、人間アノテーションシードデータの15%しか必要とせず、全データセットでトレーニングされたモデルと比較可能なリワードモデルを作成
- SERは、平均でモデルの性能を7.88%向上させ、一部のケースでは完全なデータセットでトレーニングされたモデルの性能を上回る
考察:
SERは、大規模人間ラベル付きデータへの依存を削減しつつ、LLMsの性能を維持または向上させる可能性がある。より洗練された強力なLLMsを構築するための重要な手法となりうる。