要約:

  • ハーバード大学は、今月、100万冊のパブリックドメインの本の高品質データセットを発表しました。
  • このデータセットには、Google Booksプロジェクトの一環としてスキャンされた本が含まれており、シェイクスピア、チャールズ・ディケンズ、ダンテなどの名作が含まれています。
  • このデータセットは、ハーバード大学の新しく設立されたInstitutional Data Initiativeによって、マイクロソフトとOpenAIからの資金提供で作成されました。
  • 誰でもこのデータセットを使用してLLMや他のAIツールを訓練することができます。

感想:

これらの新しいパブリックドメインデータセットの登場は、AIモデルを構築する際に著作権物を盗用する必要がないことを示しています。AI企業が著作権のある作品をスクレイピングしてモデルを訓練するための「必要性の弁明」をさらに無効にしています。


元記事: https://iblnews.org/harvard-releases-a-dataset-of-one-million-books-that-can-be-used-to-train-llms/