• Yandex Research、IST Austria、NeuralMagic、KAUSTが2つの大規模言語モデル(LLM)圧縮手法、AQLMとPV-Tuningを開発・オープンソース化。モデルサイズを最大8倍縮小しつつ応答品質95%を維持。
  • 新手法により機器コストが最大8倍削減され、AI展開の障壁が大幅に低下。
  • Llama 2 13Bなどの圧縮モデルは1GPUで動作可能になり、4台ではなくても動作。
  • AQLM圧縮手法はICML会議で披露され、LLM技術における重要な進展を示す。

この記事は、大規模言語モデル向けに2つの革新的な圧縮手法、Additive Quantization for Language Models(AQLM)とPV-Tuningを開発したことを報告している。これらの手法を組み合わせることで、モデルサイズを最大8倍縮小し、応答品質を95%保持することが可能となった。これらの手法は、リソースを最適化し、大規模言語モデルの効率を向上させることを目指している。

AQLMは、情報検索に伝統的に使用されてきた加法量子化をLLM圧縮に活用している。この手法は、極端な圧縮下でもモデルの精度を保持または向上させることができ、家庭用コンピュータやスマートフォンなどのデバイスでLLMを展開することが可能となり、メモリ消費量が大幅に削減される。

PV-Tuningは、モデル圧縮過程で生じる可能性のあるエラーに対処する。AQLMとPV-Tuningを組み合わせることで、最適な結果を提供し、限られた計算リソースでも高品質の応答を提供できるコンパクトなモデルを実現する。

これらの手法の有効性は、LLama 2、LLama 3、Mistralなどの人気のあるオープンソースモデルを使用して厳密に評価された。これらの大規模言語モデルを圧縮し、英語ベンチマークであるWikiText2とC4との回答品質を評価し、モデルを最大8倍まで圧縮しながら95%の回答品質を維持した。

新手法は、プロプライエタリ言語モデルやオープンソースLLMの開発および展開に関与する企業に大幅なリソース節約を提供する。たとえば、13兆パラメータのLlama 2モデルは、圧縮後に4台ではなく1台のGPUで動作可能になり、ハードウェアコストが最大8倍削減される。これにより、スタートアップ、個々の研究者、LLM愛好家などが普段使いのコンピュータでLlamaなどの高度なLLMを実行できる。

AQLMとPV-Tuningにより、計算リソースが限られたデバイスでもオフラインでモデルを展開できるため、スマートフォン、スマートスピーカーなどの新しい用途が可能となる。これらのデバイスに高度なLLMが統合されることで、ユーザーはインターネット接続を必要とせずにテキストや画像の生成、音声アシスタント、個人向けの推薦、リアルタイム言語翻訳などを利用できる。

さらに、これらの手法を使用して圧縮されたモデルは最大4倍速く動作し、より少ない計算が必要となる。

世界中の開発者や研究者は、GitHubで利用可能なAQLMとPV-Tuningをすでに使用できる。著者によるデモ資料は、さまざまなアプリケーションに効果的に圧縮LLMをトレーニングするためのガイダンスを提供している。さらに、これらの手法を使用してすでに圧縮された人気のオープンソースモデルをダウンロードすることができる。

Yandex ResearchによるAQLM圧縮手法に関する科学論文は、世界でも有数の機械学習会議であるICMLで取り上げられた。IST Austriaの研究者やAIスタートアップNeural Magicの専門家と共同執筆されたこの論文は、LLM圧縮技術の重要な進歩を示している。

元記事: https://www.analyticsinsight.net/press-release/yandex-researchers-develop-new-methods-for-compressing-large-language-models-cutting-ai-deployment-costs-by-up-to-8-times