多目的最適化のスケーリング: Meta と FAIR の CGPO が汎用 LLM を進化させる

多目的最適化のスケーリング: Meta と FAIR の CGPO が汎用 LLM を進化させる | Synced

ByManagetech

10月 10, 2024

RLHFの新たな手法として、Meta GenAIとFAIRの研究チームがConstrained Generative Policy Optimization (CGPO)を開発
CGPOは、RLHFプロセスを改善し、一般的なLLMの性能向上をもたらす
CGPOの中心には、Mixture of Judges (MoJ) メカニズムがあり、制約付きポリシーオプティマイゼーションと層別化を使用している
CGPOは報酬ハッキングを検出し、Pareto最適解に到達する能力があり、広範囲の目的をバランスよく達成する
新しい最適化手法: Calibrated-Regularized Policy Gradient (CRPG), Constrained Online Direct Preference Optimization (CODPO), Calibrated-Regularized Reward Ranking Finetuning (CRRAFT) を導入
CGPOをサポートするために、ルールベースのジャッジとLLMベースのジャッジを開発
多目的RLHF戦略を導入し、各タスクが個別に扱われ、Paretoフロンティアが拡大される
CGPOは、一般的な会話、命令の従順さ、数学およびコーディングの推論、エンゲージメント、セーフティの5つのタスクで従来のRLHF手法を凌駕している

CGPOはRLHFプロセスを改善し、多目的最適化の課題に対処する革新的な手法であると言えます。MoJメカニズムの導入や新しい最適化手法の採用により、RLHFの性能向上に成功しました。特に、多目的RLHF戦略の導入により、様々なタスクにおいてPareto最適解を拡大することが可能となりました。CGPOは、実験において従来の手法を凌駕し、LLMの性能を向上させることを示しています。

元記事: https://syncedreview.com/2024/10/09/scaling-multi-objective-optimization-meta-fairs-cgpo-advances-general-purpose-llms/

多目的最適化のスケーリング: Meta と FAIR の CGPO が汎用 LLM を進化させる | Synced

ByManagetech

By Managetech

Related Post

Immerso と Everdome が提携し、AI を活用した体験を通じてメタバースのイノベーションを推進 – Intelligent CIO APAC

Google が Gemini 2.0 Pro、Flash-Lite を発表、推論モデル Flash Thinking を YouTube、マップ、検索に接続 | VentureBeat

AIニュース: DeepSeekの躍進はAIの巨人に役立つだろうとウォール街のアナリストが語る – The Economic Times

You missed

ホライゾンの俳優アシュリー・バーチは、ソニーのAIアロイのビデオを見て「ゲームパフォーマンスという芸術形式に不安を感じた」と語る – IGN

JFrogとNVIDIAが提携し、安全なAI導入を強化

Mistral AI が、わずかなパラメータで GPT-4o Mini を上回る新しいオープンソースモデルをリリース | VentureBeat

AI とヒューマノイドが 2025 年のロボットのトップトレンドに | ASSEMBLY