• AI開発者がオリジナルコンテンツの枯渇に直面し、合成データに頼る
  • DeepSeekという中国のAIモデルがChatGPTとほぼ同一の応答を生成することがあり、オープンAIの出力で訓練された可能性に懸念が広がっている
  • 高品質な訓練データの供給が減少しているため、多くのAI研究者が他のAIによって生成された合成データに頼るようになっている
  • 合成データは統計学や機械学習で以前から使用されており、現実世界の情報を模倣するためにアルゴリズムとシミュレーションを利用して人工的なデータセットを作成する
  • 合成データの利用が増えるにつれて、その潜在的な操作や誤用への懸念も高まっている

合成データの使用は、AI開発者が高品質な訓練データへのアクセス制限やプライバシーの問題に直面している中で、重要な代替手段となっています。しかし、合成データには実世界データと同じ偏見が含まれる可能性があり、その操作や誤用に対する懸念も同時に高まっています。ブロックチェーン技術は、合成データのリスクを緩和するのに役立つ可能性があります。

元記事: https://decrypt.co/308876/ai-developers-turn-to-synthetic-data-as-original-content-dries-up