要約:

  • DeepSeek-R1-Lite-Preview: AIME&MATHのベンチマークでo1-previewレベルの性能を達成
  • XGrammar: MLCプロジェクトによる新しい構造生成ライブラリ
  • step-2-16k-202411: 1Tモデルが突然現れる
  • Qwen2.5-Turbo: 1M long-context Qwen
  • LTX-Video: オープンソースの生成ビデオモデル
  • LLaVA-CoT: GPT-o1に類似した視覚言語モデル
  • 1-bit AI Infra: 低ビットLLMに関するMicrosoftの公式実装がリリース
  • Tülu 3: SOTAの事後トレーニングのためのオープンモデル+コード
  • AIMv2: Appleによるビジョンエンコーダー
  • Insight-V: 長鎖視覚推論を探索する論文+コード+チェックポイント
  • BALROG: ゲームでのLLM/VLM推論のベンチマーク
  • DenseFormer: トランスフォーマーの情報フローを向上させる
  • MagicQuil: AIによるインテリジェントなインタラクティブ画像編集システム

感想:

論文やプロジェクトの多様性が印象的であり、AI分野の革新が活発に進んでいることが窺えます。特に、視覚言語モデルやベンチマークの重要性が強調されており、未来に向けた期待が高まります。オープンソースのモデルやコードの利用は研究者や開発者にとって有益であり、技術革新を促進する一方、AIが将来どのように進化していくのかについての洞察も得られる興味深い記事でした。


元記事: https://substack.com/home/post/p-152112155%3Futm_campaign%3Dpost%26utm_medium%3Dweb