要約:
- IBMのGraniteコードモデルは、テキストを2倍速く出力し、4倍のユーザーに対応できるようになりました。
- スペキュラティブ・デコーディングとページアテンションの最適化技術を導入することで、AI推論のレイテンシが半減し、スループットが4倍に向上しました。
- IBMは、Medusaスペキュレーターを開発し、ベースモデルに統合することで推論速度を2〜3倍に向上させました。
- スペキュラティブ・デコーディングとページアテンションは、IBMのGranite 20Bコードモデルに組み込まれ、IBMスペキュレーターはHugging Faceでオープンソース化されました。
考察:
AI推論のレイテンシを半減し、スループットを4倍に向上させるIBMの最適化技術は、企業とユーザー双方に大きな利益をもたらす革新的な成果である。スペキュラティブ・デコーディングやページアテンションの導入により、IBMはAI推論のコストパフォーマンスを向上させ、将来的にはWatsonXプラットフォーム全体にこれらの技術を展開する予定である。
元記事: https://research.ibm.com/blog/speculative-decoding