• RLHFの新たな手法として、Meta GenAIとFAIRの研究チームがConstrained Generative Policy Optimization (CGPO)を開発
  • CGPOは、RLHFプロセスを改善し、一般的なLLMの性能向上をもたらす
  • CGPOの中心には、Mixture of Judges (MoJ) メカニズムがあり、制約付きポリシーオプティマイゼーションと層別化を使用している
  • CGPOは報酬ハッキングを検出し、Pareto最適解に到達する能力があり、広範囲の目的をバランスよく達成する
  • 新しい最適化手法: Calibrated-Regularized Policy Gradient (CRPG), Constrained Online Direct Preference Optimization (CODPO), Calibrated-Regularized Reward Ranking Finetuning (CRRAFT) を導入
  • CGPOをサポートするために、ルールベースのジャッジとLLMベースのジャッジを開発
  • 多目的RLHF戦略を導入し、各タスクが個別に扱われ、Paretoフロンティアが拡大される
  • CGPOは、一般的な会話、命令の従順さ、数学およびコーディングの推論、エンゲージメント、セーフティの5つのタスクで従来のRLHF手法を凌駕している

CGPOはRLHFプロセスを改善し、多目的最適化の課題に対処する革新的な手法であると言えます。MoJメカニズムの導入や新しい最適化手法の採用により、RLHFの性能向上に成功しました。特に、多目的RLHF戦略の導入により、様々なタスクにおいてPareto最適解を拡大することが可能となりました。CGPOは、実験において従来の手法を凌駕し、LLMの性能を向上させることを示しています。

元記事: https://syncedreview.com/2024/10/09/scaling-multi-objective-optimization-meta-fairs-cgpo-advances-general-purpose-llms/