要約:
- AIモデルのトレーニングにより、AI生成テキストを使用すると、モデルが意味不明な出力を生み出すことが明らかになった
- この現象は「モデル崩壊」と呼ばれ、大規模言語モデルの改善を妨げる可能性がある
- 研究では、AI生成情報がトレーニングセットを汚染し、モデルの出力が愚かなものになることが示された
- AI由来のテキストから学習することで、モデルが情報を忘却し、モデル崩壊が起こりやすくなることが示された
感想:
AIモデルがAI生成テキストから学習することで、モデル崩壊が起こる可能性が示された研究は重要です。人間の生成したデータが不足する中、合成データの使用が増える中、AIモデルの改善に懸念が残ります。モデル崩壊を防ぐための解決策を見つけることがAIコミュニティにとって重要な課題となります。
元記事: https://www.nature.com/articles/d41586-024-02420-7