要約:

  • IBMのGraniteコードモデルは、テキストを2倍速く出力し、4倍のユーザーに対応できるようになりました。
  • スペキュラティブ・デコーディングとページアテンションの最適化技術を導入することで、AI推論のレイテンシが半減し、スループットが4倍に向上しました。
  • IBMは、Medusaスペキュレーターを開発し、ベースモデルに統合することで推論速度を2〜3倍に向上させました。
  • スペキュラティブ・デコーディングとページアテンションは、IBMのGranite 20Bコードモデルに組み込まれ、IBMスペキュレーターはHugging Faceでオープンソース化されました。

考察:

AI推論のレイテンシを半減し、スループットを4倍に向上させるIBMの最適化技術は、企業とユーザー双方に大きな利益をもたらす革新的な成果である。スペキュラティブ・デコーディングやページアテンションの導入により、IBMはAI推論のコストパフォーマンスを向上させ、将来的にはWatsonXプラットフォーム全体にこれらの技術を展開する予定である。


元記事: https://research.ibm.com/blog/speculative-decoding