- DeepSeekがDeepSeek-R1およびDeepSeek-R1-Zeroをリリース
- DeepSeek-R1はDeepSeek-R1-Zeroを使用してトレーニングされた
- DeepSeek-R1-Zero、DeepSeek-R1および6つの蒸留モデルがHuggingFaceでオープンソース化
- 大規模な強化学習(RL)のみを使用してトレーニングされ、RLのみに依存して推論能力を開発
- 自己検証、反射、長い思考連鎖(CoT)推論行動を持つ
- 挑戦:無限の繰り返し、読みやすさの欠如、言語の混在などの問題を抱える
- RLを適用する前にコールドスタートデータを導入
- DeepSeek-R1-Distill-Qwenシリーズ:1.5B、7B、14B、32B
- DeepSeek-R1-Distill-Llamaシリーズ:8B、70B
- 性能:蒸留モデル(例:DeepSeek-R1-Distill-Qwen-32B)がOpenAI-o1-miniを上回り、密なモデルにおいて最先端の結果を達成
- AIME 2024(Pass@1)、Codeforces(Percentile)、GPQA Diamond(Pass@1)、MATH-500(Pass@1)、MMLU(Pass@1)、SWE-bench Verified(Resolved)といったさまざまなベンチマークでの性能測定
- DeepSeek-R1とR1-Zeroは競合他社を凌駕し、革新的なトレーニング技術とオープンソースの利用可能性により、開発者に最新のAIを活用する機会を提供
これらのDeepSeekモデルは、革新的なトレーニング技術とオープンソースの利用可能性により、開発者に最新のAIを活用する機会を提供しています。高度な推論タスクに取り組むか、蒸留モデルでスケーリングダウンするかに関わらず、DeepSeekは柔軟性とパフォーマンスを提供しています。