要約:
- Microsoftが新しいエージェンティックな合成データ生成器をリリースし、人工的に作成されたデータでモデルをトレーニングしてもパフォーマンスが低下しないことを示唆
- 従来の学者は、他のAIによって作り上げられた情報を大規模言語モデル(LLM)に与えることが、モデルが「崩壊」させると警告
- Microsoftの新しいOrca-AgentInstructは、モデルの事前トレーニングを劇的に改善し、合成データがモデルを作り上げた情報の重みに耐えられないわけではないことを示唆
- AgentInstructは高品質なデータを生成するためにGPT-4や検索、コードインタプリタを使用し、大規模かつ多様なデータセットを生成
- 合成データの1百万ペアのサブセットがHugging Faceで公開され、Microsoftはデータ生成手順についての報告書も公開
考察:
Microsoftの新しいアプローチは、合成データを生成する際に高品質で多様なデータを重点的に作成するため、モデルのトレーニングにおいてポジティブな効果をもたらすと考えられます。AgentInstructの技術は、大量のデータを生成し、一般的なスキルを学習させることに焦点を当てるため、既存のプロンプトを避けることでベンチマーク固有のスキルではなく一般的なスキルの習得を促進します。
元記事: https://www.thestack.technology/microsoft-synthetic-data-does-not-cause-ai-model-collapse-2/