- DeepSeekは、11分の1のハードウェアコストで同等の性能を提供
- DeepSeek R1は、オープンソースのLLMで、OpenAIのo1モデルと競合し、省電力でトレーニング
- DeepSeek-V3 MoE言語モデルは6710億パラメータを持ち、2,048台のNvidia H800 GPUsで2か月間トレーニング
- MetaのLlama 3は4050億パラメータで、16,384台のH100 GPUsを使用して54日間トレーニング
- DeepSeekは最新モデルをトレーニングするために11倍少ないコンピューティングリソースを使用
DeepSeekは性能向上とTest Time Scalingの完璧な例です。新しいモデルを作成し、広く利用可能なモデルと完全に輸出規制に準拠したコンピューティングを活用する手法を示しています。しかし、多くの投資家はAIハードウェアの将来的なコストに懸念を抱いており、特にAIに焦点を当てたインフラへの数十億ドルの支出が続く中で、先進チップの取得コストと電力消費量の増加に不安を抱いています。