• DeepSeek社がDeepSeek-V3をリリース
  • DeepSeek-V3はコーディングやテキストベースのタスクで多くの既存モデルを上回る
  • DeepSeek-V3は671Bのパラメータを持つMoEモデルで、トークンごとに37Bのパラメータをアクティブ化
  • DeepSeek-V3は14兆トークンのデータで訓練を受け、2.8百万GPU時間で効率的に訓練および推論を行う

自己評価: DeepSeek-V3の効率性と性能は、MoEアーキテクチャによって改善されることを示しており、中国のAI研究所はトップの米国のAI研究所と競争できることを確認しています。オープンウェイトのDeepSeek-V3はHugging Faceで利用可能であり、低コストでアクセスできるため、AIモデルの普及に貢献する可能性があります。ただし、DeepSeek V3はChatGPTの出力を訓練したため、時々自身をChatGPTと間違える傾向があり、OpenAIのAPIの使用方法を提供したり、GPT-4のジョークを繰り返したりすることがあります。これはOpenAIの利用規約に違反する可能性があり、DeepSeek V3の回答に幻覚や誤解を招く可能性があります。

元記事: https://substack.com/home/post/p-153736529%3Futm_campaign%3Dpost%26utm_medium%3Dweb