- 大規模言語モデル(LLM)の開発により、AIはユーザーの指示に従うことが可能となり、顧客サービスや情報検索、コンテンツ生成などの様々なアプリケーションで性能を向上させることが求められている。
- 指示に従うモデルの開発と評価における課題の一つは、長さのバイアスがあることで、人間の評価者やトレーニングアルゴリズムが長い応答を好むため、不必要に長い出力を生成するモデルが生まれることがある。
- 長さのバイアスに対処する方法として、AlpacaEvalやMT-Benchなどの評価基準に長さペナルティを取り入れることや、RLHFなどのファインチューニング手法を用いてモデルの性能を向上させる試みが行われている。
- Meta FAIRとニューヨーク大学の研究者が提案したLIFT(Length-Instruction Fine-Tuning)手法は、トレーニングデータに明示的な長さの指示を組み込むことで、推論時にモデルを制御し、指定された長さの制約に従うようにする。
- LIFT-DPOモデルは、従来のモデルよりも長さの制約に適合する性能を示し、応答の質を維持しながら制約に従うことができることが示された。
研究は、指示に従うモデルの長さのバイアスの問題に対処するためにLIFT手法を導入し、トレーニングプロセスに長さの制約を統合することで、モデルの応答のコントロール性と品質を向上させている。
LIFT-DPOモデルは従来の方法を上回り、長さに制約のある指示に従うためのより信頼性の高い効果的な解決策を提供している。
Meta FAIRとニューヨーク大学の共同研究は、AI研究における指示に従う能力の新たな標準を設定し、簡潔で高品質な応答を生成するAIモデルの開発を大幅に改善している。