Apple はオープンソースの ReDrafter 技術を通じて LLM 推論を高速化するために Nvidia GPU を採用

AppleとNvidiaが連携し、Recorrent Drafter（ReDrafter）を使用して大規模言語モデル(LLM)の推論を加速する
パートナーシップは、オートレグレシブトークン生成の計算上の課題に対処し、リアルタイムLLMアプリケーションの効率を向上させることを目的としている
Appleのベンチマークによると、ReDrafterは従来のオートレグレッションと比較して1秒あたり2.7倍のトークンを生成する方法を示す
ReDrafterはNvidiaのTensorRT-LLMフレームワークに統合され、広く使用されているNvidia GPUでの高速なLLM推論を可能にする
新しいオペレーターの導入と既存のものの調整により、TensorRT-LLM内でReDrafterのアルゴリズムを実装し、大規模モデルのパフォーマンスを最適化する開発者向けに利用可能
Appleによると、ReDrafterにより、ユーザーの待ち時間が短縮され、より少ないGPUが必要になる可能性があり、これにより計算コストが低下し、電力消費が少なくなる
今後、この協力による性能向上がAMDやIntelなどの競合GPUにも拡大される可能性がある

この記事では、AppleとNvidiaの連携により、ReDrafterを活用したLLM推論の加速が可能となり、効率の向上や待ち時間の短縮が期待される。Nvidiaのインフラに焦点を当てつつも、将来的には他社GPUにも同様のパフォーマンス向上が及ぶ可能性がある。

Apple はオープンソースの ReDrafter 技術を通じて LLM 推論を高速化するために Nvidia GPU を採用 | TechRadar