• Analytics.gov (AG)はGovTech SingaporeのData Science and Artificial Intelligence Division(DSAID)によって開発された中央機械学習運用(MLOps)プラットフォームであり、MLとAIの使用事例をWhole-of-Government(WOG)のために本番化します。
  • AGを使用することで、政府の職員は政府発行のノートパソコンから直接コンピューティングリソースや管理されたAIサービスなどにアクセスできます。
  • AGはAWS Sagemakerエンドポイントを使用して、量子化モデルの本番用推論エンドポイントを作成および管理するためのカスタム機能を提供します。

Quantisation(量子化)はモデルのサイズを縮小するための技法であり、モデルのサイズを削減することでモデルのメモリ要件を減らし、推論速度を向上させ、コストを削減します。

量子化は、モデルのサイズを縮小するための技術であり、モデルの重みは通常浮動小数点16(FP16)やbrain float 16(BF16)などの数値形式で格納されます。量子化により、各数値を格納するために必要なビット数が減少し、モデルのサイズが縮小されます。

量子化により、モデルのメモリ要件が減少し、推論速度が向上し、コストが削減されます。高ビットの量子化を使用すると、出力品質にほぼゼロの損失で、速度が大幅に向上し、コストが削減されます。

元記事: https://towardsdatascience.com/applied-llm-quantisation-with-aws-sagemaker-analytics-gov-ab210bd6697d