- DeepSeekは、OpenAI、Meta、Anthropicなどの大手企業の主要モデルと同等のAIモデルを11倍のGPUコンピューティング削減で訓練したことを発表
- DeepSeek-V3は6710億のパラメータを持つMoE言語モデルを2,048台のNvidia H800 GPUsを使って2か月で訓練
- DeepSeekは、パイプラインアルゴリズム、最適化された通信フレームワーク、FP8低精度演算などを使用して計算およびメモリ要件を大幅に削減
- DualPipeアルゴリズムを実装し、コンピュテーションと通信フェーズを重ね合わせ、トレーニングのボトルネックを最小化
- 低精度トレーニング技術を採用し、FP8混合精度フレームワークを使用して計算を迅速化、メモリ使用量を削減
- DeepSeek-V3 MoE言語モデルは、GPT-4x、Claude-3.5-Sonnet、LLlama-3.1と比較して性能が優れていると主張
- DeepSeek-V3はGPT-4oやo3よりもパラメータ数や推論能力で劣るかもしれないが、限られたリソースで高度なMoE言語モデルを訓練できることを示唆
DeepSeekの成果は驚くべきものであり、高度なMoE言語モデルを訓練するには多くの最適化と低レベルのプログラミングが必要であることがわかります。