- 外部メモリ使用を最小化する技術がエネルギーコストを削減
- KAISTの研究者が開発したSlim-Llamaは、バイナリ/三値量子化を採用し、モデルの重みの精度を1または2ビットに低下させ、計算およびメモリ要件を大幅に低減
- Slim-Llamaは、スパースデータの処理を改善し、不要な計算を削減するSparsity-aware Look-up Tableを統合
- 出力再利用スキームとインデックスベクトルの並べ替えを組み込み、冗長な操作を最小化し、データフローの効率を向上
- 先進的なソリューションと比較して、ベンチマークのエネルギー効率が4.59倍向上
この技術は、外部メモリへの依存を減らし、データ移動に関連するエネルギーコストを大幅に削減するため、より持続可能で利用可能なAIハードウェアソリューションの可能性を開拓することができるかもしれません。Slim-Llamaは、効率的なLLM展開の需要に応えるための進歩を示しています。