- Large Language Models (LLMs)をデプロイするためにTensorRT-LLMを使用する方法を説明
- TensorRT-LLMはNvidiaによるゲームチェンジャーのオープンソースライブラリで、LLMsの推論パフォーマンスを最適化
- Nvidia Jetson AGX Orin Developer KitにLLM推論エンジンを展開する手順を示す
- Nvidia JetPack 6.1を使用し、Jetson AGX Orinデベロッパーキットをフラッシュすることを確認
- VRAMを増やすためにJetson AGX Orin上でデスクトップGUIを無効化
- Hugging Faceモデルの重みをダウンロードし、Git LFSをセットアップしてモデルをクローン
- CuSparseLTのインストールスクリプトをダウンロードし、NumPyバージョン1.26.1をインストール
- TensorRT-LLMリポジトリをクローンし、TensorRT-LLMのホイールファイルをビルドしてインストール
- Hugging FaceモデルをTensorRT-LLM形式に変換し、TensorRTエンジンをビルド
- TensorRT LLMパフォーマンスを確認し、TensorRT LLMサーバーをOpenAI互換モードで実行
- Streamlit Web Appを作成してTensorRT-LLMサービスと対話
この記事では、TensorRT LLMを使用してNVIDIA Jetson AGX Orin 64GB Developer Kitで最新の推論を実現する方法を示しました。LLMのコンパイルからStreamlitを使用してモデルを本番環境に展開するまでをカバーしました。