French AI startup Mistralは、最初のマルチモーダルモデルであるPixtral 12Bをリリースしました。このモデルはテキストと画像の両方を処理でき、12 billionのパラメータを使用しており、MistralのNemo 12Bテキストモデルに基づいています。Pixtral 12Bは、URLやbase64でエンコードされた画像などを通じて画像に関する質問に回答できます。一部の生成AI(genAI)モデルは、著作権で保護された素材を一部的にトレーニングしているため、著作権所有者から訴訟を受けています(AI企業は、この戦術を公正利用と分類すべきだと主張しています)。Pixtral 12Bの開発にどのような画像データが使用されたかは明らかではありません。このマルチモーダルモデルは約24ギガバイトで、GithubおよびHugging Face機械学習プラットフォームを介してダウンロードでき、Apache 2.0ライセンスの制約なしに使用および変更できます。
私の考え:
著作権に基づく問題は、AI技術の進歩と発展において重要な課題であり、公正利用の枠組みをどのように構築していくかが今後の課題だと感じます。MistralのPixtral 12Bのようなマルチモーダルモデルは、画像とテキストを組み合わせた新たな可能性を切り拓くと期待されます。