- Appleの最新の機械学習研究により、Nvidia GPUを使用する際にトークンの生成速度を3倍に向上させる技術が開発された
- 2024年初頭、AppleはRecuurent Drafter(ReDrafter)を公開し、訓練のパフォーマンスを向上させるための仕様デコーディング手法を採用
- ReDrafterは、通常の自己回帰型トークン生成技術に比べて1世代あたり最大3.5倍のLLMトークン生成速度を実現
- AppleはNvidiaと協力し、ReDrafterをNvidia TensorRT-LLM推論アクセラレーションフレームワークに統合
- Nvidia GPUを使用するML開発者は、TensorRT-LLMを使用してReDrafterの加速トークン生成を利用可能
- Nvidiaのテクニカルブログによると、NvidiaはTensorRT-LLMをより強力かつ柔軟にし、LLMコミュニティがより洗練されたモデルを開発して容易に展開できるようにした
- これにより、ユーザーへの遅延を最小限に抑え、必要なハードウェア量を削減できる
- AppleはAmazonのTrainium2チップの潜在的な使用を調査し、既存のハードウェアよりも50%の効率向上が期待される
AppleとNvidiaの協力により、機械学習モデルのトークン生成速度が向上し、効率的なトレーニングが可能となることは業界における重要な進展です。Nvidiaの高性能ハードウェアを活用することで、ML開発者はより迅速かつコスト効率的に作業を行えるようになります。