• LoRAアダプターを使用することで、大規模言語モデル(LLM)を特定のタスクやドメインに特化させることができる。
  • 複数のアダプターをユーザーに提供することが有用であり、例えば、1つのアダプターが関数呼び出しを行い、別のアダプターが分類、翻訳、その他の言語生成タスクを行うことができる。
  • 複数のアダプターを使用するためには、通常の推論フレームワークでは現在のアダプターをアンロードしてから新しいアダプターをロードする必要があるが、このアンロード/ロードのシーケンスには数秒かかり、ユーザーエクスペリエンスが低下する可能性がある。
  • 幸いなことに、複数のアダプターを同時に提供するためのオープンソースフレームワークがあり、例えば、vLLM(Apache 2.0ライセンス)は複数のLoRAアダプターを簡単に同時に実行および提供することができる。
  • この記事では、vLLMを複数のLoRAアダプターと共に使用する方法について見ていく。オフライン推論でLoRAアダプターを使用する方法や、オンライン推論で複数のアダプターをユーザーに提供する方法について説明する。関数呼び出しとチャットのためのアダプターを使用した例についても説明する。

考え:

複数のアダプターを同時に使用することで、ユーザーエクスペリエンスを向上させつつ、異なるタスクやドメインに特化した処理を効率的に行える点は非常に興味深い。vLLMなどのオープンソースフレームワークがこのような機能を提供していることは、AIの応用範囲をさらに広げる可能性があると感じる。

元記事: https://towardsdatascience.com/serve-multiple-lora-adapters-with-vllm-5323b0425b82