- AppleとNvidiaが連携し、Recorrent Drafter(ReDrafter)を使用して大規模言語モデル(LLM)の推論を加速する
- パートナーシップは、オートレグレシブトークン生成の計算上の課題に対処し、リアルタイムLLMアプリケーションの効率を向上させることを目的としている
- Appleのベンチマークによると、ReDrafterは従来のオートレグレッションと比較して1秒あたり2.7倍のトークンを生成する方法を示す
- ReDrafterはNvidiaのTensorRT-LLMフレームワークに統合され、広く使用されているNvidia GPUでの高速なLLM推論を可能にする
- 新しいオペレーターの導入と既存のものの調整により、TensorRT-LLM内でReDrafterのアルゴリズムを実装し、大規模モデルのパフォーマンスを最適化する開発者向けに利用可能
- Appleによると、ReDrafterにより、ユーザーの待ち時間が短縮され、より少ないGPUが必要になる可能性があり、これにより計算コストが低下し、電力消費が少なくなる
- 今後、この協力による性能向上がAMDやIntelなどの競合GPUにも拡大される可能性がある
この記事では、AppleとNvidiaの連携により、ReDrafterを活用したLLM推論の加速が可能となり、効率の向上や待ち時間の短縮が期待される。Nvidiaのインフラに焦点を当てつつも、将来的には他社GPUにも同様のパフォーマンス向上が及ぶ可能性がある。