専門家混合アーキテクチャを備えたオープンソース AI モデル DeepSeek-V3 がリリースされました | テクノロジーニュース

ByManagetech

12月 27, 2024

DeepSeekはDeepSeek-V3 AIモデルを公開
DeepSeek-V3は6710億のパラメータを持つ
LLMは効率性に焦点を当てる
MLAとDeepSeekMoEアーキテクチャを採用
パラメータは特定のタスクに関連するもののみをアクティブ化
14.8兆トークンで事前学習
学習はNvidia H800 GPUで2.788万時間かかった
性能はMeta Llama 3.1やQwen 2.5を上回ると主張
DeepSeek-V3のコードはHugging FaceでMITライセンスで利用可能

自然言語処理分野において、DeepSeek-V3 AIモデルは非常に大規模なパラメータを持ち、効率性と精度に焦点を当てています。パラメータのアクティブ化や事前学習などのテクニックを活用し、高品質な応答を生成するとされています。性能面でも他のモデルを上回ると主張されており、オープンソースで利用可能な点も魅力です。

元記事: https://www.gadgets360.com/ai/news/deepseek-v3-ai-model-mixture-of-experts-open-source-china-released-7343221