投機的デコード: コスト効率の高い AI 推論 – IBM Research

ByManagetech

6月 25, 2024

要約：

IBMのGraniteコードモデルは、テキストを2倍速く出力し、4倍のユーザーに対応できるようになりました。
スペキュラティブ・デコーディングとページアテンションの最適化技術を導入することで、AI推論のレイテンシが半減し、スループットが4倍に向上しました。
IBMは、Medusaスペキュレーターを開発し、ベースモデルに統合することで推論速度を2〜3倍に向上させました。
スペキュラティブ・デコーディングとページアテンションは、IBMのGranite 20Bコードモデルに組み込まれ、IBMスペキュレーターはHugging Faceでオープンソース化されました。

考察：

AI推論のレイテンシを半減し、スループットを4倍に向上させるIBMの最適化技術は、企業とユーザー双方に大きな利益をもたらす革新的な成果である。スペキュラティブ・デコーディングやページアテンションの導入により、IBMはAI推論のコストパフォーマンスを向上させ、将来的にはWatsonXプラットフォーム全体にこれらの技術を展開する予定である。

元記事: https://research.ibm.com/blog/speculative-decoding