• Microsoftは1ビットの大規模言語モデルの推論フレームワークであるBitNet.cppを発表
  • 1ビットLLMsに関する包括的な論文を今年早くに公開
  • フレームワークは最適化されたカーネルのスイートを提供し、現在はCPUでの損失なし推論をサポート、将来的にNPUおよびGPUのサポートを予定
  • イノベーションの要点は、各パラメータ(重みとして知られる)を1.58ビットのみを使用してモデル内に表現すること
  • BitNet b1.58は各重みを-1、0、または1のいずれかに制限

このモデルの提案された基盤であるビット使用量の大幅な削減は、同じサイズとトレーニングデータを持つ従来のモデルと同様に、エンドタスクのパフォーマンスにおいて同等に機能します。

初期リリースはARMおよびx86 CPU向けに最適化され、著しいパフォーマンス向上を示しています。

BitNet.cppはHugging Faceで利用可能なさまざまな1ビットモデルをサポートし、大規模な設定での追加の1ビットLLMsの開発を促すことを目指しています。

BitNet.cppのデモでは、Apple M2上でBitNet b1.58 3Bモデルを実行する様子を確認できます。

BitNet.cppのインストールにはPython 3.9、CMake 3.22、Clang 18が必要であり、WindowsユーザーにはVisual Studio 2022が必要です。

BitNet.cppの使用方法には、量子化モデルで推論を実行し、ベンチマークを実施する詳細な指示が含まれています。

このプロジェクトはllama.cppフレームワークに基づき、オープンソースコミュニティの貢献を謝辞し、将来の強化に関する詳細な情報を共有予定です。

元記事: https://analyticsindiamag.com/ai-news-updates/microsoft-launches-inference-framework-to-run-100b-1-bit-llms-on-local-devices/