• AppleとNvidiaが連携し、Recorrent Drafter(ReDrafter)を使用して大規模言語モデル(LLM)の推論を加速する
  • パートナーシップは、オートレグレシブトークン生成の計算上の課題に対処し、リアルタイムLLMアプリケーションの効率を向上させることを目的としている
  • Appleのベンチマークによると、ReDrafterは従来のオートレグレッションと比較して1秒あたり2.7倍のトークンを生成する方法を示す
  • ReDrafterはNvidiaのTensorRT-LLMフレームワークに統合され、広く使用されているNvidia GPUでの高速なLLM推論を可能にする
  • 新しいオペレーターの導入と既存のものの調整により、TensorRT-LLM内でReDrafterのアルゴリズムを実装し、大規模モデルのパフォーマンスを最適化する開発者向けに利用可能
  • Appleによると、ReDrafterにより、ユーザーの待ち時間が短縮され、より少ないGPUが必要になる可能性があり、これにより計算コストが低下し、電力消費が少なくなる
  • 今後、この協力による性能向上がAMDやIntelなどの競合GPUにも拡大される可能性がある

この記事では、AppleとNvidiaの連携により、ReDrafterを活用したLLM推論の加速が可能となり、効率の向上や待ち時間の短縮が期待される。Nvidiaのインフラに焦点を当てつつも、将来的には他社GPUにも同様のパフォーマンス向上が及ぶ可能性がある。

元記事: https://www.techradar.com/pro/apple-embraces-nvidia-gpus-to-accelerate-llm-inference-via-its-open-source-tech-redrafter