要約:
- フランスのAIスタートアップMistralは、新しい大規模言語モデル(LLM)Codestral Mambaを発表
- Mambaモデルは、他のオープンソースモデルよりも高速にコードを生成可能
- モデルは無限の長さのシーケンスをモデリングする能力を持ち、入力長に関係なく素早く応答
- Codestral Mambaは、256kトークンまでのコンテキスト検索を行い、いくつかのベンチマークテストで良好なパフォーマンスを示す
- 22Bパラメータ版は、一部のベンチマークテストでCodeLlama-34Bよりも優れた結果を示す
- 7B版はApache 2.0ライセンスで利用可能であり、22B版は商用ライセンスまたはコミュニティライセンスで提供
- Codestral Mambaはmistral-inference SDKを使用して展開可能
- 新しいモデルはHuggingFaceからダウンロード可能であり、la Plateformeでも利用可能
- MistralはMathstralというモデルもリリース、STEM科目に特化
- Mathstralの重みはHuggingFaceでホストされ、mistral-inferenceおよびmistral-finetuneで利用可能
考察:
Codestral Mambaは、高速なコード生成と優れたベンチマーク結果を示すことが報告されています。22Bパラメータ版がCodeLlama-34Bよりも優れた性能を示す一方、7B版は広く利用可能なApache 2.0ライセンスで提供されています。Mistralの新しいモデルリリースと、STEM科目に特化したMathstralの登場は、特定の目的に合わせたモデル構築の重要性を強調しています。