7B モデルに関する新しい研究パート 3 (LLM 2024) | Monodeep Mukherjee 著 | 2024 年 7 月

7B モデルに関する新しい研究パート 3 (LLM 2024) | Monodeep Mukherjee 著 | 2024 年 7 月 | Medium

ByManagetech

7月 13, 2024

Direct Preference Optimization (DPO)は、言語モデルを人間の好みに整列させるための標準的な手法であり、オフラインの好みに伝統的に適用されていた。
最近の研究では、DPOは、トレーニングされた報酬モデルによってラベル付けされたオンラインの好みと反復トレーニングすることで利益を得ることが示されている。
通常の反復DPOの落とし穴は、改善された応答品質が冗長性の増加につながることであることを特定している。
これを解決するために、反復長さ正規化DPO（iLR-DPO）を導入して、応答の長さを罰則する。
実験結果は、iLR-DPOが冗長性を増加させることなく、7BモデルをGPT-4と同等のレベルで高めることができることを示している。
具体的には、AlpacaEval 2.0でのGPT-4 Previewに対する7Bモデルの勝率は50.5％であり、MT-Bench、Arena-Hard、OpenLLM Leaderboardを含む標準ベンチマークでも優れた結果を示している。
これらの結果は、反復DPOが言語モデルを人間のフィードバックに整列させる効果を示している。

私の考え: この研究では、DPOを用いた新しい手法であるiLR-DPOの導入により、言語モデルの性能向上と冗長性の増加のバランスを取りながら、GPT-4と同等のレベルでの成果を達成している点が興味深いと思います。人間のフィードバックに合わせた言語モデルの整列において、反復的なトレーニングが効果的であることが示されており、今後の研究や応用に期待が持てる結果と言えるでしょう。

元記事: https://medium.com/%40monocosmo77/new-research-on-7b-models-part3-llm-2024-2809906dd104

7B モデルに関する新しい研究パート 3 (LLM 2024) | Monodeep Mukherjee 著 | 2024 年 7 月 | Medium

ByManagetech

By Managetech

Related Post

Immerso と Everdome が提携し、AI を活用した体験を通じてメタバースのイノベーションを推進 – Intelligent CIO APAC

Google が Gemini 2.0 Pro、Flash-Lite を発表、推論モデル Flash Thinking を YouTube、マップ、検索に接続 | VentureBeat

AIニュース: DeepSeekの躍進はAIの巨人に役立つだろうとウォール街のアナリストが語る – The Economic Times

You missed

ホライゾンの俳優アシュリー・バーチは、ソニーのAIアロイのビデオを見て「ゲームパフォーマンスという芸術形式に不安を感じた」と語る – IGN

JFrogとNVIDIAが提携し、安全なAI導入を強化

Mistral AI が、わずかなパラメータで GPT-4o Mini を上回る新しいオープンソースモデルをリリース | VentureBeat

AI とヒューマノイドが 2025 年のロボットのトップトレンドに | ASSEMBLY