- Microsoftは1ビットの大規模言語モデルの推論フレームワークであるBitNet.cppを発表
- 1ビットLLMsに関する包括的な論文を今年早くに公開
- フレームワークは最適化されたカーネルのスイートを提供し、現在はCPUでの損失なし推論をサポート、将来的にNPUおよびGPUのサポートを予定
- イノベーションの要点は、各パラメータ(重みとして知られる)を1.58ビットのみを使用してモデル内に表現すること
- BitNet b1.58は各重みを-1、0、または1のいずれかに制限
このモデルの提案された基盤であるビット使用量の大幅な削減は、同じサイズとトレーニングデータを持つ従来のモデルと同様に、エンドタスクのパフォーマンスにおいて同等に機能します。
初期リリースはARMおよびx86 CPU向けに最適化され、著しいパフォーマンス向上を示しています。
BitNet.cppはHugging Faceで利用可能なさまざまな1ビットモデルをサポートし、大規模な設定での追加の1ビットLLMsの開発を促すことを目指しています。
BitNet.cppのデモでは、Apple M2上でBitNet b1.58 3Bモデルを実行する様子を確認できます。
BitNet.cppのインストールにはPython 3.9、CMake 3.22、Clang 18が必要であり、WindowsユーザーにはVisual Studio 2022が必要です。
BitNet.cppの使用方法には、量子化モデルで推論を実行し、ベンチマークを実施する詳細な指示が含まれています。
このプロジェクトはllama.cppフレームワークに基づき、オープンソースコミュニティの貢献を謝辞し、将来の強化に関する詳細な情報を共有予定です。