• 2024年6月5日にニューヨークで開催される「AIインパクトツアー:AI監査」にて、AIモデルの監査方法についてトップエグゼクティブと協力する。
  • 清華大学の研究者による新しい研究は、大規模言語モデル(LLM)の推論コストを削減するために、「アテンションオフローディング」という技術を紹介。これは、メモリ集約的な操作を安価なGPUで処理し、より高価な計算最適化アクセラレーターを他のタスクに予約する方法。
  • アテンションの計算は非常に並列化可能であるため、低コストのメモリ最適化デバイスに分散できる。
  • アテンションオフローディングを使用することで、計算能力、メモリ容量、帯域幅の3つの重要な要素を効率的かつコスト効率良く提供するヘテロジニアスアーキテクチャの設計が可能。
  • このアーキテクチャは、異なるLLM推論操作のリソース要求とハードウェアの強みを一致させる。
  • 研究者たちは、Laminaという分散型ヘテロジニアスLLM推論システムを開発。これは、KVキャッシュの保存とアテンション演算をメモリデバイスにオフロードし、大規模なバッチ処理が可能。
  • 実験結果では、既存のソリューションに比べてコスト当たりのスループットが最大12.1倍まで向上。

この研究は、LLMの推論コストを削減するための新しいアプローチを提示しており、特に大規模な運用を行う企業にとって有効な手段を提供しています。アテンションオフローディング技術は、計算とメモリリソースのバランスを取りながら、コスト効率の良い運用が可能になるため、今後のAI推論アーキテクチャの設計に大きな影響を与える可能性があります。


元記事: https://venturebeat.com/ai/how-attention-offloading-reduces-the-costs-of-llm-inference-at-scale/