金. 7月 4th, 2025

大規模言語モデルにおける合成データの強化学習で 8 倍のパフォーマンス向上を実現 | Synced

ByManagetech

7月 2, 2024

研究チームが新論文「RL on Incorrect Synthetic Data Scales the Efficiency of LLM Math Reasoning by Eight-Fold」で、合成データがパフォーマンスに与える影響を提供
合成データを使用することで、大規模言語モデル（LLMs）の微調整が可能になる
合成データの恩恵について意見が分かれており、一部の研究者がその利点を強調する一方、他の者はモデルのパフォーマンスに悪影響を及ぼす可能性があると警告
研究者らは数学推論を通じて合成データのLLM能力への影響を理解しようと試み、GSM8KやMATHなどの一般的な推論ベンチマークに対する正負のデータのスケーリング法則を導出
合成データからの訓練は、単純な経験的リスク最小化と比較して、著しく遅いスケーリング率を示す
合成データの役割を理解するための価値ある洞察と概念モデルを提供し、正のデータのみを使用するよりも一貫した利得を実現できることを検証

この研究は合成データが推論タスクにおける役割を理解するための重要な知見と概念モデルを提供します。合成データのみを使用するよりも一貫した利得を得られることを検証し、ステップごとのネガティブデータでトレーニングすることが虚偽の相関を学習解除し、強化学習の利点と同様の頑健性の利益を提供できることを示しています。

元記事: https://syncedreview.com/2024/07/01/achieving-8x-performance-gains-with-reinforcement-learning-on-synthetic-data-in-large-language-models/

By Managetech

Related Post

Immerso と Everdome が提携し、AI を活用した体験を通じてメタバースのイノベーションを推進 – Intelligent CIO APAC

2月 6, 2025 Managetech

Google が Gemini 2.0 Pro、Flash-Lite を発表、推論モデル Flash Thinking を YouTube、マップ、検索に接続 | VentureBeat

2月 6, 2025 Managetech

AIニュース: DeepSeekの躍進はAIの巨人に役立つだろうとウォール街のアナリストが語る – The Economic Times

2月 6, 2025 Managetech

You missed

AI software development

ホライゾンの俳優アシュリー・バーチは、ソニーのAIアロイのビデオを見て「ゲームパフォーマンスという芸術形式に不安を感じた」と語る – IGN

3月 18, 2025 Managetech

AI software development

JFrogとNVIDIAが提携し、安全なAI導入を強化

3月 18, 2025 Managetech

AI software development

Mistral AI が、わずかなパラメータで GPT-4o Mini を上回る新しいオープンソースモデルをリリース | VentureBeat

3月 18, 2025 Managetech

AI とヒューマノイドが 2025 年のロボットのトップトレンドに | ASSEMBLY

3月 18, 2025 Managetech