• SwiftKVはSnowflake AI Researchが導入した最適化フレームワークであり、vLLMに統合されており、Meta Llama大規模言語モデル(LLMs)の推論コストを大幅に削減する。
  • SwiftKVにより最適化されたモデルSnowflake-Llama-3.3-70BおよびSnowflake-Llama-3.1-405Bは、Cortex AI上でサーバーレス推論が可能であり、SwiftKVなしのベースラインMeta Llamaモデルと比較して最大75%のコスト削減が実現される。
  • SwiftKVはKVキャッシュ生成段階における計算オーバーヘッドを削減し、前段のトランスフォーマーレイヤーから隠れた状態を再利用することで、計算を最大50%削減する。
  • この最適化により、企業レベルの精度を維持しつつ、計算量を削減することが可能で、精度の損失はベンチマーク全体で約1ポイントに制限される。
  • SwiftKVはLlama-3.3-70Bなどのモデルに対してGPU環境で2倍のスループットを提供し、NVIDIA H100sなどの環境で最初のトークンまでの時間を最大50%削減する。

私の考え:SwiftKVは、計算上のボトルネックに取り組むことで、企業がLLMの展開の可能性を最大限に引き出すことを可能にします。Snowflake AI Researchの取り組みは、LLM技術を活用する企業にとって重要であり、今後のAI分野の発展にも寄与すると考えられます。

元記事: https://analyticsindiamag.com/ai-news-updates/snowflake-ais-swiftkv-cuts-meta-llama-inference-costs-by-up-to-75/