• Large Language Models (LLMs)をデプロイするためにTensorRT-LLMを使用する方法を説明
  • TensorRT-LLMはNvidiaによるゲームチェンジャーのオープンソースライブラリで、LLMsの推論パフォーマンスを最適化
  • Nvidia Jetson AGX Orin Developer KitにLLM推論エンジンを展開する手順を示す
  • Nvidia JetPack 6.1を使用し、Jetson AGX Orinデベロッパーキットをフラッシュすることを確認
  • VRAMを増やすためにJetson AGX Orin上でデスクトップGUIを無効化
  • Hugging Faceモデルの重みをダウンロードし、Git LFSをセットアップしてモデルをクローン
  • CuSparseLTのインストールスクリプトをダウンロードし、NumPyバージョン1.26.1をインストール
  • TensorRT-LLMリポジトリをクローンし、TensorRT-LLMのホイールファイルをビルドしてインストール
  • Hugging FaceモデルをTensorRT-LLM形式に変換し、TensorRTエンジンをビルド
  • TensorRT LLMパフォーマンスを確認し、TensorRT LLMサーバーをOpenAI互換モードで実行
  • Streamlit Web Appを作成してTensorRT-LLMサービスと対話

この記事では、TensorRT LLMを使用してNVIDIA Jetson AGX Orin 64GB Developer Kitで最新の推論を実現する方法を示しました。LLMのコンパイルからStreamlitを使用してモデルを本番環境に展開するまでをカバーしました。

元記事: https://www.hackster.io/shahizat/running-llms-with-tensorrt-llm-on-nvidia-jetson-agx-orin-34372f