• Alibaba Cloudが最新の大規模言語モデルQwen 2.5-Maxをリリース
  • DeepSeekのR1推論モデルとともに中国からの2つ目の大規模言語モデルリリース
  • Qwen 2.5-Maxは20兆トークン以上で事前トレーニングされ、専門家の混合LLMモデル
  • モデルの効率を向上させるためにMoEアーキテクチャを使用
  • Qwenモデルは競合モデルを凌駕し、リソース使用を最適化

Alibaba CloudのQwen 2.5-Maxは、専門家の混合LLMモデルであり、20兆トークン以上で事前トレーニングされ、Supervised Fine-TuningおよびReinforcement Learningからの人間フィードバックによる追加ポストトレーニングを行いました。MoEアーキテクチャを使用することで、Qwenモデルは競合モデルを凌駕し、リソースの使用を最適化できるとされています。

元記事: https://siliconangle.com/2025/01/29/alibaba-unveils-qwen-2-5-max-ai-model-saying-outperforms-deepseek-v3/