要約

  • Container Caching機能がAmazon SageMakerに導入され、ジェネレーティブAIモデルのスケーリングを効率的に行えるようになった。
  • Container Cachingはコンテナイメージを事前にキャッシュすることで、スケーリング時のダウンロード作業を排除し、トラフィックスパイクに対応する際のスケーリング速度を劇的に向上させる。
  • サポートされるフレームワークには、vLLMを活用したLMI、Hugging Face TGI、PyTorch(TorchServe)、NVIDIA Tritonなどが含まれる。
  • Container Cachingの実装により、エンドツーエンド(E2E)スケーリングタイムが大幅に短縮され、特にLlama3.1 70Bモデルなどの大規模言語モデルにおいて効果的であることが示されている。

感想

Container Caching機能の導入により、ジェネレーティブAIモデルのスケーリングにおける重要な課題を解決する革新が実現されました。ジェネレーティブAIモデルのスケーリングが効率的かつ迅速に行えることは、エンドユーザーにとっても利益をもたらす重要な点であり、AWSがMLインフラストラクチャ全体を強化する取り組みの一環としてこの機能がどのように位置付けられているか理解できました。

元記事: https://aws.amazon.com/blogs/machine-learning/supercharge-your-auto-scaling-for-generative-ai-inference-introducing-container-caching-in-sagemaker-inference/