要約:
- 大規模言語モデル(LLMs)のサイズの増加は、リソースに制約のあるプラットフォームでの使用を難しくしている。
- GPUのメモリが不十分であるため、重いLLMsを保持することが困難。
- オフロードは、LLMモデルの重みをホストCPUメモリとSSDに保存し、使用前に各重みをGPUにロードすることで、この制約から逃れる人気のある方法。
- オフロード推論のケーススタディでは、ストレージデバイスとGPU間の低帯域幅により、大きなモデル重みをオフロードされた位置からGPUメモリに転送する遅延が臨界的なボトルネックとなることがわかった。
- 重み転送の遅延を効果的に減少させるために、非ゼロ値の高い圧縮率と低い展開オーバーヘッドで薄いLLM重みの非構造化スパースパターンを圧縮する新しいスパース形式を提案。
- Endorは、非ゼロ要素の位置をビットマップで表現することでこれを実現。
- 一般的なHuggingface Accelerateを使用したオフロード推論と比較して、Endorを適用すると、OPT-66Bが1.70倍、Llama2–70Bが1.78倍加速される。
- SSDからGPUへの直接重み転送を活用すると、EndorはOPT-66Bで2.25倍、Llama2–70で2.37倍のスピードアップを達成。
考察:
提案されたEndorは、オフロード推論における重み転送の遅延を効果的に減少させる革新的なスパース形式であり、大規模言語モデルの効率的な処理に貢献している。非構造化スパースパターンを圧縮し、高い圧縮率と低い展開オーバーヘッドを実現するアプローチは興味深い。さらなる研究や産業応用において、Endorの効果的な活用が期待される。