• Transformerベースの生成型Large Language Models(LLMs)は、自然言語処理(NLP)タスクの幅広い範囲で強力さを示している。
  • 多くの開発者にとって、これらのモデルの訓練と実装の費用が高すぎるため、AI企業はLMaaSを提供している。
  • 現在のシステムは、クエリを処理する際に一番先に来たものから処理し、決められたバッチサイズで行うことが効率的でないとされている。
  • 中国のAI研究者チームがMagnusというシステムを提案し、ユーザーの入力の長さと生成リクエストの長さの間に強い正の相関があることを活用してバッチングプロセスを効率化している。
  • Magnusは、バッチスケジューラ、適応バッチャ、処理時間推定器、生成長予測器の4つの部分から構成されており、これらを組み合わせてLMaaSのバッチ処理を最適化している。
  • MagnusのプロトタイプシステムはNVIDIA V100 GPUs上のChatGLM-6Bインスタンスでテストされ、サービング遅延、リクエストスループット、サービス効率においてベースラインに比べて notable な利点が示された。
  • Magnusによる改善により、リクエストスループットが最大234%向上し、応答時間が最大89.7%短縮された。

研究論文を読むと、Magnusは生成長さの予測を活用することで、LMaaSのバッチ処理を最適化する方法を示しており、その効果が実証されています。

この研究は、リクエスト処理の効率を向上させるために、ユーザーの入力と生成リクエストの長さの相関を活用しています。Magnusのアプローチは、バッチングプロセスをより効率的にし、LMaaSの品質向上に貢献しています。

元記事: https://www.marktechpost.com/2024/06/13/this-ai-paper-from-china-propose-magnus-revolutionizing-efficient-llm-serving-for-lmaas-with-semantic-based-request-length-prediction/