- UCサンタクルーズ大学、東海大学、UCデイビス大学の研究者が新しいアーキテクチャを開発
- MatMul-free言語モデルの導入により、大規模なメモリ使用量と推論時の遅延を軽減
- MatMul操作を3つの状態(-1、0、+1)の3ビットテナリー重みで置き換え
- MatMul-freeアーキテクチャは推論時のメモリ使用量と遅延を削減
- MLGRUとGLUを用いてトークンミキサーとチャネルミキサーを実装し、MatMul操作を排除
- MatMul-free LMは性能を維持しつつ、メモリ使用量と遅延を削減
- MatMul-free LMはTransformer++よりも効率的で、ゼロショットパフォーマンスが高い
研究ではMatMul-freeアーキテクチャにより、大規模な言語モデルの効率向上が示されました。このアーキテクチャはMatMul操作を置き換え、メモリ使用量と遅延を軽減しつつ、性能を維持できることが示されました。