- RLHFの新たな手法として、Meta GenAIとFAIRの研究チームがConstrained Generative Policy Optimization (CGPO)を開発
- CGPOは、RLHFプロセスを改善し、一般的なLLMの性能向上をもたらす
- CGPOの中心には、Mixture of Judges (MoJ) メカニズムがあり、制約付きポリシーオプティマイゼーションと層別化を使用している
- CGPOは報酬ハッキングを検出し、Pareto最適解に到達する能力があり、広範囲の目的をバランスよく達成する
- 新しい最適化手法: Calibrated-Regularized Policy Gradient (CRPG), Constrained Online Direct Preference Optimization (CODPO), Calibrated-Regularized Reward Ranking Finetuning (CRRAFT) を導入
- CGPOをサポートするために、ルールベースのジャッジとLLMベースのジャッジを開発
- 多目的RLHF戦略を導入し、各タスクが個別に扱われ、Paretoフロンティアが拡大される
- CGPOは、一般的な会話、命令の従順さ、数学およびコーディングの推論、エンゲージメント、セーフティの5つのタスクで従来のRLHF手法を凌駕している
CGPOはRLHFプロセスを改善し、多目的最適化の課題に対処する革新的な手法であると言えます。MoJメカニズムの導入や新しい最適化手法の採用により、RLHFの性能向上に成功しました。特に、多目的RLHF戦略の導入により、様々なタスクにおいてPareto最適解を拡大することが可能となりました。CGPOは、実験において従来の手法を凌駕し、LLMの性能を向上させることを示しています。