注意オフロードが大規模な LLM 推論のコストを削減する方法

注意オフロードが大規模な LLM 推論のコストを削減する方法 | VentureBeat

ByManagetech

5月 15, 2024

2024年6月5日にニューヨークで開催される「AIインパクトツアー：AI監査」にて、AIモデルの監査方法についてトップエグゼクティブと協力する。
清華大学の研究者による新しい研究は、大規模言語モデル（LLM）の推論コストを削減するために、「アテンションオフローディング」という技術を紹介。これは、メモリ集約的な操作を安価なGPUで処理し、より高価な計算最適化アクセラレーターを他のタスクに予約する方法。
アテンションの計算は非常に並列化可能であるため、低コストのメモリ最適化デバイスに分散できる。
アテンションオフローディングを使用することで、計算能力、メモリ容量、帯域幅の3つの重要な要素を効率的かつコスト効率良く提供するヘテロジニアスアーキテクチャの設計が可能。
このアーキテクチャは、異なるLLM推論操作のリソース要求とハードウェアの強みを一致させる。
研究者たちは、Laminaという分散型ヘテロジニアスLLM推論システムを開発。これは、KVキャッシュの保存とアテンション演算をメモリデバイスにオフロードし、大規模なバッチ処理が可能。
実験結果では、既存のソリューションに比べてコスト当たりのスループットが最大12.1倍まで向上。

この研究は、LLMの推論コストを削減するための新しいアプローチを提示しており、特に大規模な運用を行う企業にとって有効な手段を提供しています。アテンションオフローディング技術は、計算とメモリリソースのバランスを取りながら、コスト効率の良い運用が可能になるため、今後のAI推論アーキテクチャの設計に大きな影響を与える可能性があります。

元記事: https://venturebeat.com/ai/how-attention-offloading-reduces-the-costs-of-llm-inference-at-scale/

注意オフロードが大規模な LLM 推論のコストを削減する方法 | VentureBeat

ByManagetech

By Managetech

Related Post

Immerso と Everdome が提携し、AI を活用した体験を通じてメタバースのイノベーションを推進 – Intelligent CIO APAC

Google が Gemini 2.0 Pro、Flash-Lite を発表、推論モデル Flash Thinking を YouTube、マップ、検索に接続 | VentureBeat

AIニュース: DeepSeekの躍進はAIの巨人に役立つだろうとウォール街のアナリストが語る – The Economic Times

You missed

ホライゾンの俳優アシュリー・バーチは、ソニーのAIアロイのビデオを見て「ゲームパフォーマンスという芸術形式に不安を感じた」と語る – IGN

JFrogとNVIDIAが提携し、安全なAI導入を強化

Mistral AI が、わずかなパラメータで GPT-4o Mini を上回る新しいオープンソースモデルをリリース | VentureBeat

AI とヒューマノイドが 2025 年のロボットのトップトレンドに | ASSEMBLY