- Nvidia Corp. は、Mistral-NeMo-Minitron 8B という軽量言語モデルをリリースした。
- Mistral-NeMo-Minitron 8B は、同じサイズのニューラルネットワークよりも優れたパフォーマンスを示す。
- このモデルは、オープンソースライセンスのもとでHugging Faceで利用可能。
- Mistral-NeMo-Minitron 8B は、Nvidia の Mistral NeMo 12B のスケールダウンバージョンであり、機械学習の技術を用いて開発された。
- プルーニングと蒸留という技術が使用され、モデルの効率性を向上させ、モデルがNvidia RTX搭載ワークステーションで実行できるようになっている。
- Mistral-NeMo-Minitron 8B は、元のモデルよりも40億のパラメーターが少ない。
- 3つの新しい言語モデルがリリースされており、その中で最もコンパクトなものは Phi-3.5-mini-instruct で、38億のパラメーターを持ち、128,000トークン分のデータを処理することができる。
- Phi-3.5-mini-instruct は、特定のタスクにおいて Llama 3.1 8B や Mistral 7B などのモデルを上回っている。
- また、画像解析タスクを行う Phi-3.5-vision-instruct や、60.8億のパラメーターを持つ大規模なモデルである Phi-3.5-MoE-instruct もリリースされている。
- これらのリリースは、より効率的でアクセスしやすいAIモデルへの傾向を示しており、限られた容量を持つハードウェア上で実行しながら高品質な出力を提供している。
私の考え:Nvidia がプルーニングや蒸留などの機械学習技術を活用して、より効率的でハードウェア要件の少ないモデルを開発していることは非常に興味深いです。これらの新しいモデルは、AIの様々なタスクにおいて高いパフォーマンスを発揮し、よりアクセスしやすい状況を作り出しているように思います。
元記事: https://www.baselinemag.com/news/nvidia-introduces-mistral-nemo-minitron-8b-model/