- AI開発者は元のコンテンツが枯渇する中、合成データに頼る
- DeepSeekという中国のAIモデルがChatGPTとほぼ同じ応答を生成し、オープンAIの出力を学習した可能性があるとの報告がある
- GoogleのCEOはAI開発者が高品質なトレーニングデータの供給を急速に使い果たしていると警告
- 高品質なトレーニングデータの供給が減少する中、多くのAI研究者が他のAIによって生成された合成データに注目
- 合成データは統計学や機械学習で古くから使用されており、実際のデータを基にアルゴリズムやシミュレーションを利用してリアルな情報を模倣する
- 合成データの使用が増えるにつれ、操作や誤用の可能性についての懸念も高まっている
- ブロックチェーン技術は合成データのリスクを緩和するのに役立つ可能性があり、データの改ざん防止が目標
合成データはAI開発において重要な代替手段となっており、データのアクセシビリティがトレーニングモデルの主な課題であることが強調されています。合成データの利用が増えることで、操作や誤用の懸念も高まっています。ブロックチェーン技術は合成データのリスクを緩和するための手段として活用される可能性があります。
元記事: https://decrypt.co/308876/ai-developers-turn-to-synthetic-data-as-original-content-dries-up