• Appleとの協力により、NVIDIAはTensorRT-LLMライブラリに新しい先読みデコーディング手法「ReDrafter」を導入
  • アップデートにより、NVIDIA H100 GPUで最大2.7倍のスループット向上が可能とされ、大規模言語モデルの推論効率が向上
  • ReDrafterは、推論中に最適な経路を検証および採用することで出力品質を維持し、計算コストを低減
  • TensorRT-LLMエンジンに検証および起草手順を直接組み込むことで、ランタイム操作への依存を排除し、Medusaなどの既存ソリューションよりも顕著な改善を実現
  • 改訂されたライブラリにより、インフライトバッチングが可能となり、コンテキストフェーズと生成フェーズのリクエストを最大化し、低トラフィック時にリソース使用効率を向上
  • NVIDIAによれば、これらの進歩は開発者が性能と効率の高いより洗練されたモデルを作成・実装できるようにする
  • この協力により、NVIDIAは革新的技術をシステムに組み込むことで人工知能インフラのリーディングを強調
  • Appleとの協力は、LLMプロセスの向上において先読みデコーディングの重要性を強調し、次世代の人工知能アプリケーションの基盤を整える

この記事はGuruFocusで最初に掲載されました。

元記事: https://finance.yahoo.com/news/nvidia-apple-boost-llm-inference-095917343.html