AI モデルをエッジ デバイスに提供することに注力し、PyTorch チームは 5 月 1 日に、コーディングを必要とせずに Llama 2 および 3 モデルをスマートフォンで実行できるようにしたと発表しました。
研究者らは、SplitK 並列化を活用した最適化された Triton FP8 GEMM (General Matrix-Matrix Multiply) カーネル TK-GEMM を発表しました。
この機能強化により、小バッチ サイズの推論のパフォーマンスが向上し、NVIDIA H100 GPU 上の Llama3-70B タスクでは、元の Triton セットアップと比較して最大 1.94 倍、cuBLAS FP8 よりも 1.87 倍、cuBLAS FP16 よりも 1.71 倍の速度が実現します。
SplitK 並列化とは、k 次元に沿ってより多くの作業単位を作成することを意味し、これによりタスクがより小さな部分に分割され、特に M 値がより小さいマトリックスの場合に遅延が削減されます。
さらに、CUDA グラフを活用することで CPU 起動のオーバーヘッドが削減され、Llama3-70B モデルの単一のアテンション レイヤーの速度が最大 6.4 倍向上します。これらの最適化によりパフォーマンスが大幅に向上し、FP8 推論のさらなる強化への道が開かれます。
Llama モデルをモバイル デバイスで実行できるため、開発者は高度なコーディング知識がなくても、これらの高度な言語モデルのパワーを活用したアプリを作成できます。開発者は、インテリジェントな仮想アシスタント、パーソナライズされた言語学習アプリ、リアルタイム翻訳ツールなどを作成できます。
アップデートには、iOS と Android の両方のデバイスで Llama 2 と 3 を実行するための手順も含まれています。
PyTorch チームは、Nvidia、Arm、Intel が共同で導入した、16 ビット浮動小数点型の後継となる新しい FP8 データ型を活用しました。FP8 データ型は、E4M3 と E5M2 の 2 つの形式で構成されており、Transformer ネットワークの従来の形式に比べてスループットが大幅に向上します。
また、TMA (Tensor Memory Accelerator) ハードウェア ユニットの活用や Tensor Core の使用率の向上など、将来の潜在的な最適化パスも特定しました。これらの最適化により、将来的にパフォーマンスがさらに向上する可能性があります。
オープンなアンケートと賞のノミネートフォームにすべて 1 か所でアクセスできます
Microsoft Azure はクラウド市場シェア 25% で Amazon に迫っています。
業界のリーダーがテクノロジーの未来を再定義する、データ エンジニアリング サミット 2024 でデータ イノベーションの最前線に加わりましょう。
AIM India#280、2 階、5th Main、15 A クロス、セクター 6、HSR レイアウト ベンガルール、カルナタカ 560102
AIM Americas2955、1603 Capitol Avenue、Suite 413A、シャイアン、ワイオミング州、ララミー、米国、82001
© Analytics India Magazine Pvt Ltd & AIM Media House LLC 2024
毎週発行されるニュースレター「Belamy」は大人気です。下記にメールアドレスを入力してください。
元記事: https://analyticsindiamag.com/pytorch-enables-llama-2-3-to-run-on-smartphones-with-zero-code/