要約:
- 強化学習からの人間フィードバック(RLHF)は、人間の好みに基づいた報酬モデルを使用して、広範な言語モデル(LLMs)を整列させ、高い報酬を持つ生成物を奨励する。
- RLHFにはいくつか未解決の問題があり、微調整プロセスが小さなデータセットに制限されることがしばしばあり、モデルが専門化しすぎて事前トレーニング中に学習した幅広い知識を見逃す可能性がある。
- 論文では、Google DeepMindチームがWeight Averaged Rewarded Policies(WARP)を提案し、LLMsを整列させ、ソリューションのKullback-Leibler(KL)報酬パレートフロントを最適化する方法を説明している。
- WARPは、モデルのマージングの3つの異なるステージを使用し、RL中の動的アンカーとして指数移動平均、独立して報酬された複数のポリシーを組み合わせる球面補間、共有初期化に向かって補間を行う。
- 実験では、Gemma “7B” LLMが考慮され、RLHFを使用して会話エージェントを改善し、WARPによって提案されたポリシーがMistralバリアントよりも好まれ、以前のGemma “7B”リリースを上回ることが検証された。
感想:
WARPは、LLMsを整列させ、事前トレーニングの知識を保護しながらKL報酬パレートフロントを向上させる革新的なRLHFメソッドであり、モデルマージング技術の更なる研究を奨励し、AIシステムの安全性と強力さを向上させる可能性があると感じる。