技術記事要約:

  • パリを拠点とする人工知能スタートアップMistral AIが、画像とテキストの両方を処理できる最新の高度なAIモデル「Pixtral 12B」を発表。
  • Pixtral 12Bは約120億のパラメータを使用し、テキストを理解することができるMistralの以前にリリースされたAIモデル「Nemo 12B」に、4億のパラメータを持つビジョンアダプターを追加。
  • 他の多くの大規模言語モデルも、Anthropic PBCのClaudeファミリーやOpenAIのGPT-4o、Google LLCのGeminiなど、マルチモーダル機能を追加しており、Pixtral 12Bに画像に関する質問に答えたり、キャプションを付けたり、オブジェクトを数えたりする能力を提供。
  • 会社は、パラメータとコードをGitHubとAI配布プラットフォームHugging Faceにトレントリンクで公開し、開発者にダウンロードと使用を奨励。
  • モデルがダウンロード可能になったことで、開発者は独自の目的のためにモデルを微調整してトレーニングできるようになる。
  • 開発者向けに一部のモデルをApache 2.0ライセンスのもとオープンソースで提供する一方、商用アプリケーションには有料ライセンスが必要。
  • Mistralの開発者リレーション担当Sophia Yangは、モデルがMistralのチャットボットとAPIプラットフォームであるLe ChatとLe Platformeでテスト可能になると述べた。

感想:

最新のPixtral 12Bモデルは画像とテキストを処理できる新たな可能性をもたらすと感じます。このモデルがオープンソースで提供されることで、開発者がさまざまな用途に適合させる機会が増えることは素晴らしいと思います。


元記事: https://siliconangle.com/2024/09/11/mistral-unveils-pixtral-12b-multimodal-ai-model-can-process-text-images/