• 研究チームが新論文「RL on Incorrect Synthetic Data Scales the Efficiency of LLM Math Reasoning by Eight-Fold」で、合成データがパフォーマンスに与える影響を提供
  • 合成データを使用することで、大規模言語モデル(LLMs)の微調整が可能になる
  • 合成データの恩恵について意見が分かれており、一部の研究者がその利点を強調する一方、他の者はモデルのパフォーマンスに悪影響を及ぼす可能性があると警告
  • 研究者らは数学推論を通じて合成データのLLM能力への影響を理解しようと試み、GSM8KやMATHなどの一般的な推論ベンチマークに対する正負のデータのスケーリング法則を導出
  • 合成データからの訓練は、単純な経験的リスク最小化と比較して、著しく遅いスケーリング率を示す
  • 合成データの役割を理解するための価値ある洞察と概念モデルを提供し、正のデータのみを使用するよりも一貫した利得を実現できることを検証

この研究は合成データが推論タスクにおける役割を理解するための重要な知見と概念モデルを提供します。合成データのみを使用するよりも一貫した利得を得られることを検証し、ステップごとのネガティブデータでトレーニングすることが虚偽の相関を学習解除し、強化学習の利点と同様の頑健性の利益を提供できることを示しています。

元記事: https://syncedreview.com/2024/07/01/achieving-8x-performance-gains-with-reinforcement-learning-on-synthetic-data-in-large-language-models/