金. 7月 3rd, 2026

マイクロソフト：合成データはAIモデルの崩壊を引き起こさない

ByManagetech

11月 18, 2024

要約:

Microsoftが新しいエージェンティックな合成データ生成器をリリースし、人工的に作成されたデータでモデルをトレーニングしてもパフォーマンスが低下しないことを示唆
従来の学者は、他のAIによって作り上げられた情報を大規模言語モデル（LLM）に与えることが、モデルが「崩壊」させると警告
Microsoftの新しいOrca-AgentInstructは、モデルの事前トレーニングを劇的に改善し、合成データがモデルを作り上げた情報の重みに耐えられないわけではないことを示唆
AgentInstructは高品質なデータを生成するためにGPT-4や検索、コードインタプリタを使用し、大規模かつ多様なデータセットを生成
合成データの1百万ペアのサブセットがHugging Faceで公開され、Microsoftはデータ生成手順についての報告書も公開

考察:

Microsoftの新しいアプローチは、合成データを生成する際に高品質で多様なデータを重点的に作成するため、モデルのトレーニングにおいてポジティブな効果をもたらすと考えられます。AgentInstructの技術は、大量のデータを生成し、一般的なスキルを学習させることに焦点を当てるため、既存のプロンプトを避けることでベンチマーク固有のスキルではなく一般的なスキルの習得を促進します。

元記事: https://www.thestack.technology/microsoft-synthetic-data-does-not-cause-ai-model-collapse-2/

By Managetech

Related Post

Immerso と Everdome が提携し、AI を活用した体験を通じてメタバースのイノベーションを推進 – Intelligent CIO APAC

2月 6, 2025 Managetech

Google が Gemini 2.0 Pro、Flash-Lite を発表、推論モデル Flash Thinking を YouTube、マップ、検索に接続 | VentureBeat

2月 6, 2025 Managetech

AIニュース: DeepSeekの躍進はAIの巨人に役立つだろうとウォール街のアナリストが語る – The Economic Times

2月 6, 2025 Managetech

You missed

AI software development

ホライゾンの俳優アシュリー・バーチは、ソニーのAIアロイのビデオを見て「ゲームパフォーマンスという芸術形式に不安を感じた」と語る – IGN

3月 18, 2025 Managetech

AI software development

JFrogとNVIDIAが提携し、安全なAI導入を強化

3月 18, 2025 Managetech

AI software development

Mistral AI が、わずかなパラメータで GPT-4o Mini を上回る新しいオープンソースモデルをリリース | VentureBeat

3月 18, 2025 Managetech

AI とヒューマノイドが 2025 年のロボットのトップトレンドに | ASSEMBLY

3月 18, 2025 Managetech