• 元連邦大臣ラジーヴ・チャンドラセーカー氏によると、ほとんどの人工知能(AI)モデルは設計が不適切なデータセットで訓練されており、それが最終製品の品質を損なっている。
  • 大規模言語モデル(LLMs)の「くだらない内容」は、ほとんどのモデルが「遠慮なく言えば、品質が保証されていない」コンテンツ/データセットで訓練されているため生じている。
  • 元大臣は、10億ドル規模のGemini/ChatGPTがしばしば無意味なことを吐き出すのは、ほとんどのモデルが品質保証されていないコンテンツ/データセットで訓練されているためだと述べた。
  • ペンシルベニア大学ウォートンスクールの准教授であるイーサン・モリック氏は、LLMsが真実を考慮せずにコンテンツを生成することは新しい考えではないと指摘し、LLMsは多くのタスクで人間よりも正確かもしれないと述べた。
  • 元電子情報技術担当国務大臣のチャンドラセーカー氏は、「ゴミを入れれば、ゴミが出る」と述べ、特にインターネットから情報を収集に頼っている場合はこの古い格言が当てはまると反応した。
  • あるXユーザーは、AI機械は情報を与えられる必要があり、人間のように解体や表現する知能は必要ないと投稿した。
  • 最終的に、人間の考えが機械が何を言うかを決定すると述べた。

この記事は、AIモデルの訓練においてデータセットの設計の重要性を強調しており、品質の保証がないデータセットに基づいて訓練されたモデルは質の低い結果を生む可能性があると述べています。特に言語モデルに関連して、真実を無視したコンテンツが生成される可能性が指摘されています。人間の考えが最終的に機械の出力に影響を与えるという意見も示されています。

元記事: https://pune.news/nation/most-ai-models-are-being-trained-on-poor-quality-datasets-rajeev-chandrasekhar-191734/