- DeepSeekはDeepSeek-V3 AIモデルを公開
- DeepSeek-V3は6710億のパラメータを持つ
- LLMは効率性に焦点を当てる
- MLAとDeepSeekMoEアーキテクチャを採用
- パラメータは特定のタスクに関連するもののみをアクティブ化
- 14.8兆トークンで事前学習
- 学習はNvidia H800 GPUで2.788万時間かかった
- 性能はMeta Llama 3.1やQwen 2.5を上回ると主張
- DeepSeek-V3のコードはHugging FaceでMITライセンスで利用可能
自然言語処理分野において、DeepSeek-V3 AIモデルは非常に大規模なパラメータを持ち、効率性と精度に焦点を当てています。パラメータのアクティブ化や事前学習などのテクニックを活用し、高品質な応答を生成するとされています。性能面でも他のモデルを上回ると主張されており、オープンソースで利用可能な点も魅力です。