要約:
- MicrosoftはGoogleが開発した機械学習モデル「Transformer」を使用してきたが、Transformerの限界に達したため、大規模言語モデル(LLM)と小規模言語モデル(SLM)の組み合わせに移行することを発表した。
- Microsoftは、NVIDIAが開発した’TensorRT-LLM’をワークフローに統合することで、検索を最適化すると発表。
- Microsoftは、SLMを使用して検索結果の品質を向上させ、検索結果の表示時間を短縮するためにTensorRT-LLMを活用している。
- TensorRT-LLMの導入により、検索結果の速度が向上し、検索体験が向上し、LLMの運用コストが57%削減された。
- TensorRT-LLMはINT8を使用して推論を行い、ネットワークの精度を維持しながら、検索結果の速度が向上する。
考察:
MicrosoftはTransformerからより強力なモデルへの移行により、検索エンジンの性能向上に注力している。TensorRT-LLMの活用により、検索結果の速度と品質を両立させつつ、運用コストを削減する手法は画期的である。今後もMicrosoftの検索技術の進化に期待が高まる。
元記事: https://gigazine.net/gsc_news/en/20241218-bing-transition-tensorrt-llm/