Deepseekの新しい言語モデルV3は、わずか560万ドルのトレーニングコストで、世界最高のAIシステムと競合できることがAI独立テスト会社Artificial Analysisによって確認されました。
- DeepseekのV3は、80ポイントのスコアで、業界の重鎮であるGemini 1.5 ProやClaude Sonnet 3.5と同等の上位層に位置しています。
- 技術的なタスクにおいて優れた成績を残し、人間のプログラミングテストでは92%、MATH 500チャレンジでは85%のスコアを記録しました。
- Deepseekは、わずか2,048台のGPUを57日間稼働させ、Nvidia H800チップで6710億パラメータのモデルをトレーニングしています。
- Deepseekはリソースの効率性を重視し、巨大なGPUクラスターが今後も必要であると指摘されています。
Deepseekの成功の一部は、米国の輸出制限に直面する中国企業として、最新のNvidiaチップへの限られたアクセスから来ています。
- Deepseekは、制約が創造的な問題解決を促す典型的なケースであり、独自のプロセッサ通信のカスタムソリューションを開発することで制限を機会に転換しました。
- Deepseekのリーンな運営と攻勢的な価格戦略は、確立されたプレーヤーを注目させています。
- DeepseekのV3は、米国の輸出制限によるハードウェアへの制限がソフトウェアの革新を促しており、EUのAI開発にも関連する可能性があります。
Deepseekは、最新技術の構築には巨大なGPUクラスターが必要ではなく、リソースを効率的に活用することが重要であることを示しています。
- 産業は推論時間のスケーリングに重点を置いており、このアプローチが成功すれば、今後も業界は大規模なコンピューティングを必要とし、おそらくそれ以上になるでしょう。
Deepseekは、競争力のある価格で最高のモデルを提供し、完全にオープンソースで公開しています。これは、AI開発において大きな影響を持つ可能性があります。
元記事: https://the-decoder.com/deepseeks-5-6m-chinese-llm-wonder-shakes-up-the-ai-elite/