• 人工知能(AI)モデルの多くは、設計が不適切なデータセットでトレーニングされており、最終製品の品質が低下している。
  • 元閣僚のラジーヴ・チャンドラシェカール氏は、大規模言語モデル(LLM)の「くだらないコンテンツ」は、多くのモデルが「丁寧に言って、品質が保証されていない」コンテンツ/データセットでトレーニングされているためだと述べた。
  • チャンドラシェカール氏は、「数十億ドルのジェミニ/ChatGPTがしばしば無意味なことを吐き出すのを見るのは恥ずかしい」と述べた。
  • ホワートン・スクールの准教授であるイーサン・モリック氏は、「LLMが真実を無視してコンテンツを生成する」という考えは新しいものではないが、LLMは多くのタスクで人間より正確かもしれないと述べた。
  • AIマシンは、情報を与えられる必要があり、人間のように解体や表現するほど知的ではないと発言したXユーザーもいた。

私の考え:
人工知能の品質は、トレーニングに使用されるデータセットの品質に大きく左右されることが明らかです。品質の保証されていないデータセットでのトレーニングは、無意味な結果や誤った情報の生成につながる可能性があります。今後は、データセットの品質管理にさらなる注意が必要であると感じます。

元記事: https://www.zeebiz.com/technology/news-most-ai-models-are-being-trained-on-poor-quality-datasets-rajeev-chandrasekhar-296372