• DeepSeekはDeepSeek-V3 AIモデルを公開
  • DeepSeek-V3は6710億のパラメータを持つ
  • LLMは効率性に焦点を当てる
  • MLAとDeepSeekMoEアーキテクチャを採用
  • パラメータは特定のタスクに関連するもののみをアクティブ化
  • 14.8兆トークンで事前学習
  • 学習はNvidia H800 GPUで2.788万時間かかった
  • 性能はMeta Llama 3.1やQwen 2.5を上回ると主張
  • DeepSeek-V3のコードはHugging FaceでMITライセンスで利用可能

自然言語処理分野において、DeepSeek-V3 AIモデルは非常に大規模なパラメータを持ち、効率性と精度に焦点を当てています。パラメータのアクティブ化や事前学習などのテクニックを活用し、高品質な応答を生成するとされています。性能面でも他のモデルを上回ると主張されており、オープンソースで利用可能な点も魅力です。

元記事: https://www.gadgets360.com/ai/news/deepseek-v3-ai-model-mixture-of-experts-open-source-china-released-7343221