要約:

  • フランスのAIスタートアップMistralは、新しい大規模言語モデル(LLM)Codestral Mambaを発表
  • Mambaモデルは、他のオープンソースモデルよりも高速にコードを生成可能
  • モデルは無限の長さのシーケンスをモデリングする能力を持ち、入力長に関係なく素早く応答
  • Codestral Mambaは、256kトークンまでのコンテキスト検索を行い、いくつかのベンチマークテストで良好なパフォーマンスを示す
  • 22Bパラメータ版は、一部のベンチマークテストでCodeLlama-34Bよりも優れた結果を示す
  • 7B版はApache 2.0ライセンスで利用可能であり、22B版は商用ライセンスまたはコミュニティライセンスで提供
  • Codestral Mambaはmistral-inference SDKを使用して展開可能
  • 新しいモデルはHuggingFaceからダウンロード可能であり、la Plateformeでも利用可能
  • MistralはMathstralというモデルもリリース、STEM科目に特化
  • Mathstralの重みはHuggingFaceでホストされ、mistral-inferenceおよびmistral-finetuneで利用可能

考察:

Codestral Mambaは、高速なコード生成と優れたベンチマーク結果を示すことが報告されています。22Bパラメータ版がCodeLlama-34Bよりも優れた性能を示す一方、7B版は広く利用可能なApache 2.0ライセンスで提供されています。Mistralの新しいモデルリリースと、STEM科目に特化したMathstralの登場は、特定の目的に合わせたモデル構築の重要性を強調しています。

元記事: https://www.infoworld.com/article/2518599/mistrals-new-codestral-mamba-to-aid-longer-code-generation.html