• 現在の多くの生成AIツールとシステムは、膨大な量のインターネットデータでトレーニングされている。
  • オープンソースコードリポジトリからのデータも含まれるため、オープンソースライセンスに関連する問題がAIトレーニングデータと出力に関わる可能性がある。
  • 企業で生成AIを効果的に使用するには、データ品質の確保やモデルの適切な微調整、生成AIセキュリティリスクの緩和など、さまざまな課題に取り組む必要がある。
  • オープンソースソフトウェアのライセンスに関する問題も重要であり、AIに影響を与える可能性がある。
  • 主要な大規模言語モデルの多くは、インターネットから収集された膨大なデータでトレーニングされている。これにはGitHubなどのウェブサイトで利用可能なオープンソースソフトウェアコードも含まれる。

生成AIがオープンソースコードでトレーニングされることで新しいコードを生成できるようになりますが、そのコードが実際に「新しい」ものかどうかは議論の余地があります。AIツールによって生成されたソースコードは新しいものではなく、むしろモデルがトレーニングされたコードの再利用であると主張することができます。

元記事: https://www.techtarget.com/searchenterpriseai/tip/Examining-the-future-of-AI-and-open-source-software