- Red HatがRed Hat Enterprise Linux AI (RHEL AI) 1.2をリリース
- AMD Instinct GPUサポート追加
- Microsoft AzureとGoogle Cloud Platformで利用可能に
- Lenovo ThinkSystem SR675 V3サーバーでの展開が可能
- 新しい定期的なチェックポイント機能が追加され、モデルの効率向上と計算リソースの節約を実現
- ilab CLIによるGPUやハードウェアアクセラレーターの自動検出が可能に
- Fully Sharded Data Parallel (FSDP)を導入し、モデルの分散トレーニング時間を大幅に短縮
新しいデプロイメントオプションや強化されたチェックポイント機能、最適化されたハードウェア検出により、このアップデートは大規模言語モデルの開発を加速し、マルチクラウドAIワークロードを簡素化します。Red Hat Enterprise Linux AI (RHEL AI)は、Granite LLMsとInstructLabツールを使用して、エンタープライズアプリケーション向けの大規模言語モデル(LLMs)の開発、テスト、実行に焦点を当てており、これはRHELオペレーティングシステムとは異なるものです。
AMD Instinct GPUサポートが初めて導入され、ROCmオープンソースコンピュートスタックの統合により、組織はMI300X GPUをトレーニングと推論の両方に、MI210 GPUを推論専用のワークロードに活用できます。この追加機能により、既存のNVIDIA GPUおよびCPUベースの操作を補完し、柔軟性が向上します。
Microsoft AzureとGoogle Cloud Platformで利用可能になり、企業はAIベースのGPUインスタンスを簡単に展開できるようになりました。このクラウドサポートにより、ビジネスはマルチクラウド環境全体でAIワークロードをシームレスに実行できます。ユーザーはLenovo ThinkSystem SR675 V3サーバーに展開できます。プリロードされた展開オプションにより、セットアッププロセスが簡素化され、ハードウェアアクセラレーターとの互換性が向上し、全体的な効率が向上します。
ilab CLIには、GPUやその他のハードウェアアクセラレーターの自動検出機能が追加されています。この機能により、手動での構成作業が最小限に抑えられ、利用可能なハードウェアに合わせてパフォーマンスが最適化されます。PyTorchを介したFully Sharded Data Parallel(FSDP)を導入し、パラメーター、勾配、およびオプティマイザ状態をシャーディングして分散モデルトレーニングを可能にします。この機能により、複雑なモデルのトレーニング時間が大幅に短縮され、全体的な生産性が向上します。
私の考え: 新しい機能やサポートの追加により、RHEL AIはより柔軟になり、大規模言語モデルの開発プロセスが効率化されています。特に、自動検出機能や定期的なチェックポイント機能は、ユーザーエクスペリエンスを向上させ、計算リソースの効率的な利用をサポートしています。
元記事: https://www.opensourceforu.com/2024/10/next-gen-ai-platform-supporting-gpus/