DeepSeek-R1: 最高のオープンソース推論 LLM が OpenAI-o1 を上回る | Mehul Gupta 著 | ポケットの中のデータサイエンス | 2025 年 1 月

1月 21, 2025

DeepSeekがDeepSeek-R1およびDeepSeek-R1-Zeroをリリース
DeepSeek-R1はDeepSeek-R1-Zeroを使用してトレーニングされた
DeepSeek-R1-Zero、DeepSeek-R1および6つの蒸留モデルがHuggingFaceでオープンソース化
大規模な強化学習（RL）のみを使用してトレーニングされ、RLのみに依存して推論能力を開発
自己検証、反射、長い思考連鎖（CoT）推論行動を持つ
挑戦：無限の繰り返し、読みやすさの欠如、言語の混在などの問題を抱える
RLを適用する前にコールドスタートデータを導入
DeepSeek-R1-Distill-Qwenシリーズ：1.5B、7B、14B、32B
DeepSeek-R1-Distill-Llamaシリーズ：8B、70B
性能：蒸留モデル（例：DeepSeek-R1-Distill-Qwen-32B）がOpenAI-o1-miniを上回り、密なモデルにおいて最先端の結果を達成
AIME 2024（Pass@1）、Codeforces（Percentile）、GPQA Diamond（Pass@1）、MATH-500（Pass@1）、MMLU（Pass@1）、SWE-bench Verified（Resolved）といったさまざまなベンチマークでの性能測定
DeepSeek-R1とR1-Zeroは競合他社を凌駕し、革新的なトレーニング技術とオープンソースの利用可能性により、開発者に最新のAIを活用する機会を提供

これらのDeepSeekモデルは、革新的なトレーニング技術とオープンソースの利用可能性により、開発者に最新のAIを活用する機会を提供しています。高度な推論タスクに取り組むか、蒸留モデルでスケーリングダウンするかに関わらず、DeepSeekは柔軟性とパフォーマンスを提供しています。

DeepSeek-R1: 最高のオープンソース推論 LLM が OpenAI-o1 を上回る | Mehul Gupta 著 | ポケットの中のデータサイエンス | 2025 年 1 月 | Medium