DeepSeek の新しい AI モデルは、これまでで最高の「オープン」な挑戦者の 1 つであるようです | TechCrunch

12月 27, 2024

DeepSeek V3は、AI企業DeepSeekによって開発されたモデルで、コーディング、翻訳、エッセイや電子メールの作成などのテキストベースの作業やタスクを処理できる。
DeepSeek V3は、コーディングコンテストやコードの新規作成などのベンチマークテストで競合他社のモデルを凌駕している。
DeepSeek V3は、14.8兆トークンのデータセットでトレーニングされ、6850億のパラメータを持つ大規模なモデルである。
DeepSeek V3のトレーニングにはNvidia H800 GPUsを使用し、2か月かかり、開発コストはOpenAIのGPT-4などのモデルよりもはるかに低い。
DeepSeek V3は政治的視点がフィルタリングされており、例えば「天安門広場」について尋ねると回答しない。

DeepSeek V3は非常に強力なAIモデルであり、競合他社を凌駕する性能を持っています。また、巨大なデータセットとパラメータ数を持つことから、そのトレーニングには高額の投資が必要であるが、低コストで開発されています。ただし、モデルの政治的な視点がフィルタリングされている点には注意が必要です。