要約:
- 中国のDeepSeekがR1モデルをリリースし、数々の推論タスクでGPT-01と同等の性能を達成
- アリババのQwQは32億パラメータのプレビューバージョンで、数学問題解決能力を評価するベンチマークでGPT-o1-previewを上回る
- QwQは科学的推論においてもGPT-01-miniを上回り、ライブコードベンチではGPT-o1に劣るものの、GPT-4oやClaude 3.5 Sonnetよりも優れた性能を示す
- QwQは”patient inquiry”と”thoughtful analysis”を重視し、徐々に推論する透明性を持つ
- LRMの登場は、単にモデルサイズを拡大することが人工知能の一般的な知能を実現する最も効果的な方法ではないことを示している
感想:
アリババのQwQは、推論能力に焦点を当てた大規模な推論モデル(LRM)の進化において重要な節目を示すリリースです。従来の大規模言語モデル(LLMs)から推論と問題解決能力を優先するLRMsへの移行を象徴しており、そのオープンソース性、印象的な性能、透明な”思考プロセス”は、研究者や開発者がLRMの可能性を探求するための共同環境を促進することが期待されます。この新しいクラスのAIモデルが成熟するにつれて、AIシステムが人間の言語だけでなく、思考、学習、問題解決の能力を模倣するだけでなく、かつては人間の知能の独占的な領域と考えられていた方法で問題を解決する未来が期待されます。
元記事: https://substack.com/home/post/p-152237535%3Futm_campaign%3Dpost%26utm_medium%3Dweb