• 映画やテレビ番組の対話は、AppleやAnthropicなどの企業によってAIシステムのトレーニングに使用されている。
  • これらのデータセットは、OpenSubtitles.orgというウェブサイトから取得された字幕で構成されており、AI開発者によって2020年以降に広く使用されている。
  • 字幕は、口頭会話のリズムやスタイルを含む書き言葉の生の形態であり、AI開発者が生成的AIのレパートリーを拡大するのに役立っている。
  • Apple、Anthropic、Meta、Nvidia、Salesforce、Bloombergなどの企業がこのデータセットを使用してAIシステムをトレーニングしており、さまざまな開発モデルが構築されている。
  • 作家、俳優、アーティスト、出版社などからの多くの訴訟がAIトレーニングプロセスにおける著作権侵害を主張しており、AIを訓練することの法的側面は未解決のままである。

私の考え:
この記事はAI開発における著作権や倫理的な問題について興味深い内容であり、AIがどのようにトレーニングされているかについての透明性が重要であると感じました。著作権侵害や作家の権利を侵害することなく、AI技術を発展させる方法について、技術企業や業界全体が真剣に考える必要があると思います。

元記事: https://www.theatlantic.com/technology/archive/2024/11/opensubtitles-ai-data-set/680650/