• DeepSeekがDeepSeek-R1およびDeepSeek-R1-Zeroをリリース
  • DeepSeek-R1はDeepSeek-R1-Zeroを使用してトレーニングされた
  • DeepSeek-R1-Zero、DeepSeek-R1および6つの蒸留モデルがHuggingFaceでオープンソース化
  • 大規模な強化学習(RL)のみを使用してトレーニングされ、RLのみに依存して推論能力を開発
  • 自己検証、反射、長い思考連鎖(CoT)推論行動を持つ
  • 挑戦:無限の繰り返し、読みやすさの欠如、言語の混在などの問題を抱える
  • RLを適用する前にコールドスタートデータを導入
  • DeepSeek-R1-Distill-Qwenシリーズ:1.5B、7B、14B、32B
  • DeepSeek-R1-Distill-Llamaシリーズ:8B、70B
  • 性能:蒸留モデル(例:DeepSeek-R1-Distill-Qwen-32B)がOpenAI-o1-miniを上回り、密なモデルにおいて最先端の結果を達成
  • AIME 2024(Pass@1)、Codeforces(Percentile)、GPQA Diamond(Pass@1)、MATH-500(Pass@1)、MMLU(Pass@1)、SWE-bench Verified(Resolved)といったさまざまなベンチマークでの性能測定
  • DeepSeek-R1とR1-Zeroは競合他社を凌駕し、革新的なトレーニング技術とオープンソースの利用可能性により、開発者に最新のAIを活用する機会を提供

これらのDeepSeekモデルは、革新的なトレーニング技術とオープンソースの利用可能性により、開発者に最新のAIを活用する機会を提供しています。高度な推論タスクに取り組むか、蒸留モデルでスケーリングダウンするかに関わらず、DeepSeekは柔軟性とパフォーマンスを提供しています。

元記事: https://medium.com/data-science-in-your-pocket/deepseek-r1-best-open-source-reasoning-llm-outperforms-openai-o1-b79869392945