• 大きく、容量が大きく、より大きなコンテキストウィンドウを持つモデルがすべてを打ち負かす
  • 実用的な製品は最高のモデルではなく、最も関連性のあるモデルが必要
  • あるモデルが別のモデルを打ち負かすかもしれないが、負けたモデルの方が要求に適しているかもしれない
  • 品質が最高でなく、アプリケーションに適したモデルを選択することはコストとレイテンシーの観点からも重要
  • サーバー容量は限られており、ピーク時間には需要が高いモデルに対して増加したレイテンシーが発生する可能性がある
  • ユーザーを待たせないために、需要の少ないモデルで返信することが重要

この記事は、大きなモデルが必ずしも最適というわけではなく、アプリケーションに適したモデルを選択する重要性について述べています。最適な品質よりも適切なモデルを選択することは、コストとレイテンシーの観点からも重要であり、ユーザーの待ち時間を短縮するために需要の少ないモデルを活用することが重要であると強調しています。

元記事: https://towardsdatascience.com/llm-routing-the-heart-of-any-practical-ai-chatbot-application-892e88d4a80d