• DeepSeekがDeepSeek-V3の後にDeepSeek-R1とDeepSeek-R1-Zeroをリリース
  • DeepSeek-R1はDeepSeek-R1-Zeroを使用してトレーニングされたベースモデル
  • DeepSeek-R1-Zero、DeepSeek-R1、および6つの蒸留モデルがHuggingFaceでオープンソース化
  • 大規模強化学習(RL)のみを使用してトレーニングされ、RLに完全に依存している
  • 自己検証、反射、長い思考連鎖(CoT)の推論挙動を備えている
  • 課題:無限の反復、読みにくさ、言語混在などの問題
  • RLを適用する前に冷たいスタートデータを取り込むことで挑戦に対処
  • DeepSeek-R1-Distill-Qwenシリーズ:1.5B、7B、14B、32B
  • DeepSeek-R1-Distill-Llamaシリーズ:8B、70B
  • 性能:蒸留モデルはOpenAI-o1-miniを上回り、密なモデルにおける最先端の結果を達成
  • AIME 2024(Pass@1)、Codeforces(Percentile)、GPQA Diamond(Pass@1)などの様々なベンチマークにおいて成績が優れている

DeepSeek-R1とR1-Zeroは、主要なベンチマークでOpenAI-o1などの競合他社を凌駕し、革新的なトレーニング技術とオープンソースの利用可能性により、開発者に最先端のAIを幅広いアプリケーションで活用する力を与えています。進んだ推論タスクに取り組んだり、蒸留モデルで縮小したりする場合でも、DeepSeekは柔軟性と性能を提供しています。ぜひモデルを試してみてください!

Youtubeチャンネル

GenAIコース&プロジェクト

元記事: https://medium.com/data-science-in-your-pocket/deepseek-r1-best-open-source-reasoning-llm-outperforms-openai-o1-b79869392945