要約:

  • 強化学習からの人間フィードバック(RLHF)は、人間の好みに基づいた報酬モデルを使用して、広範な言語モデル(LLMs)を整列させ、高い報酬を持つ生成物を奨励する。
  • RLHFにはいくつか未解決の問題があり、微調整プロセスが小さなデータセットに制限されることがしばしばあり、モデルが専門化しすぎて事前トレーニング中に学習した幅広い知識を見逃す可能性がある。
  • 論文では、Google DeepMindチームがWeight Averaged Rewarded Policies(WARP)を提案し、LLMsを整列させ、ソリューションのKullback-Leibler(KL)報酬パレートフロントを最適化する方法を説明している。
  • WARPは、モデルのマージングの3つの異なるステージを使用し、RL中の動的アンカーとして指数移動平均、独立して報酬された複数のポリシーを組み合わせる球面補間、共有初期化に向かって補間を行う。
  • 実験では、Gemma “7B” LLMが考慮され、RLHFを使用して会話エージェントを改善し、WARPによって提案されたポリシーがMistralバリアントよりも好まれ、以前のGemma “7B”リリースを上回ることが検証された。

感想:

WARPは、LLMsを整列させ、事前トレーニングの知識を保護しながらKL報酬パレートフロントを向上させる革新的なRLHFメソッドであり、モデルマージング技術の更なる研究を奨励し、AIシステムの安全性と強力さを向上させる可能性があると感じる。


元記事: https://www.marktechpost.com/2024/06/29/google-deepmind-introduces-warp-a-novel-reinforcement-learning-from-human-feedback-rlhf-method-to-align-llms-and-optimize-the-kl-reward-pareto-front-of-solutions/