- DeepSeekがDeepSeek-V3の後にDeepSeek-R1とDeepSeek-R1-Zeroをリリース
- DeepSeek-R1はDeepSeek-R1-Zeroを使用してトレーニングされたベースモデル
- DeepSeek-R1-Zero、DeepSeek-R1、および6つの蒸留モデルがHuggingFaceでオープンソース化
- 大規模強化学習(RL)のみを使用してトレーニングされ、RLに完全に依存している
- 自己検証、反射、長い思考連鎖(CoT)の推論挙動を備えている
- 課題:無限の反復、読みにくさ、言語混在などの問題
- RLを適用する前に冷たいスタートデータを取り込むことで挑戦に対処
- DeepSeek-R1-Distill-Qwenシリーズ:1.5B、7B、14B、32B
- DeepSeek-R1-Distill-Llamaシリーズ:8B、70B
- 性能:蒸留モデルはOpenAI-o1-miniを上回り、密なモデルにおける最先端の結果を達成
- AIME 2024(Pass@1)、Codeforces(Percentile)、GPQA Diamond(Pass@1)などの様々なベンチマークにおいて成績が優れている
DeepSeek-R1とR1-Zeroは、主要なベンチマークでOpenAI-o1などの競合他社を凌駕し、革新的なトレーニング技術とオープンソースの利用可能性により、開発者に最先端のAIを幅広いアプリケーションで活用する力を与えています。進んだ推論タスクに取り組んだり、蒸留モデルで縮小したりする場合でも、DeepSeekは柔軟性と性能を提供しています。ぜひモデルを試してみてください!