- Direct Preference Optimization (DPO)は、言語モデルを人間の好みに整列させるための標準的な手法であり、オフラインの好みに伝統的に適用されていた。
- 最近の研究では、DPOは、トレーニングされた報酬モデルによってラベル付けされたオンラインの好みと反復トレーニングすることで利益を得ることが示されている。
- 通常の反復DPOの落とし穴は、改善された応答品質が冗長性の増加につながることであることを特定している。
- これを解決するために、反復長さ正規化DPO(iLR-DPO)を導入して、応答の長さを罰則する。
- 実験結果は、iLR-DPOが冗長性を増加させることなく、7BモデルをGPT-4と同等のレベルで高めることができることを示している。
- 具体的には、AlpacaEval 2.0でのGPT-4 Previewに対する7Bモデルの勝率は50.5%であり、MT-Bench、Arena-Hard、OpenLLM Leaderboardを含む標準ベンチマークでも優れた結果を示している。
- これらの結果は、反復DPOが言語モデルを人間のフィードバックに整列させる効果を示している。
私の考え: この研究では、DPOを用いた新しい手法であるiLR-DPOの導入により、言語モデルの性能向上と冗長性の増加のバランスを取りながら、GPT-4と同等のレベルでの成果を達成している点が興味深いと思います。人間のフィードバックに合わせた言語モデルの整列において、反復的なトレーニングが効果的であることが示されており、今後の研究や応用に期待が持てる結果と言えるでしょう。
元記事: https://medium.com/%40monocosmo77/new-research-on-7b-models-part3-llm-2024-2809906dd104