- Alibaba Cloudが最新の大規模言語モデルQwen 2.5-Maxをリリース
- DeepSeekのR1推論モデルとともに中国からの2つ目の大規模言語モデルリリース
- Qwen 2.5-Maxは20兆トークン以上で事前トレーニングされ、専門家の混合LLMモデル
- モデルの効率を向上させるためにMoEアーキテクチャを使用
- Qwenモデルは競合モデルを凌駕し、リソース使用を最適化
Alibaba CloudのQwen 2.5-Maxは、専門家の混合LLMモデルであり、20兆トークン以上で事前トレーニングされ、Supervised Fine-TuningおよびReinforcement Learningからの人間フィードバックによる追加ポストトレーニングを行いました。MoEアーキテクチャを使用することで、Qwenモデルは競合モデルを凌駕し、リソースの使用を最適化できるとされています。